Настоящее будущее: зачем бизнесу компьютерный фейсконтроль
Опубликовано в журнале РБК № 1 за 2016 год
История компании началась в 1995 году с разработки аудиорегистраторов: тогда крупные компании с многоканальными телефонами остро нуждались в технике для записи разговоров, рассказывает РБК генеральный и технический директор «Вокорда» Алексей Кадейшвили. Инженеры, в числе которых был выпускник МФТИ Дмитрий Заварикин, предложили систему, которая позволяла оцифровывать звук, сжимать его и записывать на жесткий диск компьютера. «Тогда это было нетривиальной инженерной задачей, решить которую могли несколько компаний в стране», — добавляет Кадейшвили. Но возможности компьютерной техники росли, задача быстро упростилась, и разработчики решили уйти в гораздо менее конкурентную в то время сферу видеоаналитики.
В 1999 году Заварикин основал ЗАО «Вокорд Телеком», стартовые инвестиции в которое составили всего около 300 тыс. руб. На первом этапе специалисты компании занимались в основном установкой домофонов и электронных замков, но со временем «Вокорд» создал высокотехнологичные продукты по каждому направлению своей деятельности. Vocord Traffic занимается распознаванием автомобильных номеров и фиксацией ПДД, Vocord Tahion — видеонаблюдением и анализом промышленных и коммерческих объектов и мест скопления людей, а Vocord FaceControl и Vocord FaceControl 3D отвечают за распознавание лиц. Среди заказчиков продуктов «Вокорда» — МВД, ФСБ и ФСО России, а также «Газпром», «Росатом», «Магнит» и другие крупнейшие компании России и более 70 объектов системы «Безопасный город». По данным «СПАРК-Интерфакса», 2014 год «Вокорд» завершил с выручкой 302 млн руб. и чистой прибылью 1,6 млн руб.
С продуктом Vocord FaceControl 3D компания в 2011 году стала резидентом «Сколково», получив грант в размере 20 млн руб., и в том же году получила инвестиции ЗАО «Лидер», сумма которых не раскрывалась. «При знакомстве c проектом мы отметили высокую технологическую новизну и оригинальное решение, которое обладало существенными конкурентными преимуществами перед аналогами на рынке», — заявил РБК исполнительный директор IT-кластера фонда «Сколково» Игорь Богачев. Правда, по его словам, технология требовала существенной доработки, которая и была реализована за счет грантового финансирования.
Лица в 3D
Разработку проекта FaceControl 3D «Вокорд» начал с двухмерного распознавания лиц и сразу столкнулся с проблемой. Если человек отворачивался от камеры больше чем на 15 градусов в любой плоскости, построить модель лица уже не удавалось. Поэтому инженеры «Вокорда» разработали систему, которая на основе синхронных снимков с нескольких камер строит трехмерную модель лица. Эта модель сравнивается с фотографией на пропуске или в доступной базе, система идентифицирует личность человека на снимке и сохраняет модель в архиве.
Но даже с переходом на 3D-моделинг получить хорошее качество снимков мешало плохое качество съемки стандартных обзорных камер. Крупным компаниям невыгодно было разрабатывать и производить камеры только для распознавания изображений — ниша была слишком узкой. «Вокорд» разработал свою технику на стыке классических обзорных камер и камер машинного зрения, которые обладали высокой чувствительностью, адаптировались к освещению, автоматически управляли объективом и делали снимки более четкими.
«Мы стали предлагать клиенту не отдельный софт, а полноценный аппаратно-программный продукт — тогда это было прорывом в области распознавания лиц», — говорит Кадейшвили. Стоимость полной установки для клиента в «Вокорде» раскрыть отказались, но из прайс-листа, размещенного на сайте компании, следует, что лицензия на ПО системы Vocord FaceControl, которая позволяет подключать до десяти камер и до четырех рабочих мест операторов, стоит около 300 тыс. руб. с НДС. А программный модуль определения пола, возраста и подсчета числа проходящих мимо системы людей можно приобрести за 50 тыс. руб.
В России у «Вокорда» несколько конкурентов в области технологий распознавания лиц: VisionLabs, «Техносерв», «Стилсофт» и «Смиларт», перечисляет Кадейшвили. «Вокорд» и «Техносерв» работают на одном поле, но «Вокорд» — это в первую очередь разработчик ПО, а «Техносерв» — интегратор, поэтому пространства для маневров на рынке достаточно, считает начальник отдела подготовки биометрических решений «Техносерва» Иван Тихонов. Но, как и «Вокорд», «Техносерв» ориентирован в основном на большие комплексные проекты для крупных государственных и коммерческих структур.
Как это работает?
Первые технологии распознавания лиц появились вместе с распространением фотографии и использовались для идентификации и поимки преступников. Об автоматизации речи не шло — лицо подозреваемого с изображенным на снимке преступником сверял человек. В середине 1980-х годов стали широко использоваться компьютерные технологии, и распознавание вышло на новый уровень: на снимке лица выделялись биометрические точки, расстояние между которыми измерял компьютер. Главным критерием был набор цифр, который получали путем деления длин отрезков, соединяющих эти точки. Затем к биометрическим точкам добавились уникальные признаки человеческого лица, что значительно облегчило процедуру распознавания, появились полностью автоматические системы. В 1990-х годах оформилась четверка компаний — лидеров в этой сфере: немецкая Cognitec Systems, немецкая Neven Vision (купленная Google в 2006 году), американская L1 Identity Solutions и японская NEC.
Но за последние десять лет технология очень изменилась: для распознавания лиц начали использовать искусственные нейронные сети — математическую модель, построенную по принципу организации сетей нервных клеток живого организма. В процессе обучения нейронной сети задействованы две ее способности: запоминание, когда сеть дает верный отклик на входные данные, и обобщение, когда сеть выдает правильные результаты в ответ на входные данные. Именно эти свойства позволяют новейшей системе автоматически сравнивать новое изображение (фотографию или 3D-модель лица) с тем, что уже есть в ее базе.
Области применения
Сегодня системы распознавания лиц применяются в трех областях. Первая — борьба с криминалом. Фоторобот преступника сверяется с изображениями в базах данных либо производится съемка человеческого потока в людных местах, и лица людей в реальном времени сравниваются с лицами нарушителей, находящихся в розыске. Систему можно использовать и в борьбе с банковским мошенничеством. Биометрические технологии практически исключают возможность получить кредит по подложному паспорту и снять в банкомате деньги, даже если злоумышленник знает pin-код карты.
Распознавание работает в системах контроля доступа. Обычно технология действует в связке с электронными пропусками: образец фото на них сравнивается с моделью, полученной в результате съемки человека, входящего в здание. В этом случае фиксация лица — самый удобный способ идентификации, считает Кадейшвили. «Получение качественного отпечатка пальца занимает сравнительно много времени, да и не все готовы приложить палец к экрану, к которому до них прикасались десятки человек. Анализ сетчатки глаза — тоже не самая быстрая процедура: вам нужно встать точно напротив сканера и какое-то время не моргать, — говорит технический директор «Вокорда». — Лицо же всегда доступно для съемки, если только вы не носите паранджу. Фотографирование происходит мгновенно, и процедура не требует от человека никаких дополнительных действий».
Третья сфера применения, быстро развивающаяся в последнее время, — маркетинг. Человек подходит к интерактивному рекламному стенду, система фиксирует его лицо, строит трехмерную модель и определяет пол и возраст. В результате клиент видит на стенде только ту рекламу, которая потенциально ему интересна. Есть и другая маркетинговая задача: усовершенствовать традиционные программы лояльности. «Раньше понять, что перед вами постоянный клиент, можно было только на кассе, когда он достанет из бумажника скидочную карту. Теперь, поместив в зале магазина камеру и установив систему распознавания лиц, можно узнавать каждого любимого клиента прямо с порога», — считает директор по венчурным инвестициям ЗАО «Лидер» Константин Надененко.
Русский алгоритм
В начале декабря российская компания NTechLab победила в конкурсе алгоритмов распознавания лиц Megaface, организованном Вашингтонским университетом. Основатель компании — выпускник факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова Артем Кухаренко. Участвовать в конкурсе можно было в двух категориях, в каждой из которых предлагалось анализировать по два пакета — больше 500 тыс. изображений и меньше 500 тыс. изображений. NTechLab победила в двух соревнованиях и заняла второе место еще в двух.
Продукт NTechLab называется FaceN. Компания на сайте указывает, что он уже используется для поиска людей по фотографии и контроля доступа. Чтобы идентифицировать человека по фото, алгоритм должен уметь выделять такие черты лица, которые не зависят от того, как меняется внешность человека и как по-разному его можно сфотографировать, указывает компания. FaceN построена на так называемых инвариантных признаках — таких, которые характеризуют индивидуальное строение лица и не изменяются. При этом часть признаков (величина глаз, фактура бровей, форма губ) человеческий глаз распознает, а часть — выделить не способен, указывают создатели технологии.
От идентификации к эмоциям
По словам Кадейшвили, в ближайшие годы распознавание лиц на основе трехмерной модели станет распространенным бизнесом: «Мы готовы к тому, что скоро одна за другой компании научатся хорошо распознавать лица, поэтому мы готовы и дальше держаться своей стратегии, выбирая новые задачи, более сложные с алгоритмической точки зрения».
Следующим вызовом для «Вокорда» в течение ближайших пяти—десяти лет станет разработка системы по распознаванию человеческих эмоций. Система может использоваться для анализа психоэмоционального состояния человека в области анимации, кинематографа и создания компьютерных игр.
«Задач, связанных с распознаванием человеческих эмоций, на наш век точно хватит. Например, создателям фильма «Аватар» нужно поставить памятник за долготерпение — в процессе съемок каждого актера обвешивали специальными датчиками, наносили разметку на лица и обрабатывали отснятый материал, чтобы зафиксировать его мимику и транслировать ее на персонаж. Система распознавания эмоций, основанная на работе нейронных сетей, может в разы упростить и ускорить этот процесс», — рассказывает Кадейшвили. Он утверждает, что «Вокорд» уже даже нашел потенциальных заказчиков для этой системы, но раскрывать названия компаний отказался.
Правда, нынешние инвесторы компании не делают ставку на развитие «эмоциональной» технологии. «Система распознавания эмоций нас как инвесторов интересует в меньшей степени. На наш взгляд, это дело не ближайшего будущего, а наш инвестиционный горизонт не так далек. Мы ставим задачу своего выхода из проекта на горизонте двух лет», — говорит Константин Надененко.
Старший менеджер по инвестициям фонда LETA Capital Сергей Топоров, напротив, считает «эмоциональную» сферу перспективной, но, по его мнению, в ближайшее время громких финансовых результатов это разработчикам не сулит. Под вопросом, как он полагает, и перспективы небольших компаний, работающих в этой сфере: «Технологиями распознавания лиц уже овладело большое количество компаний, а гиганты типа Google и Facebook завладели этими компаниями. Теперь лидерство за тем, кто будет делать это быстрее, массово, дешевле».