25.09.2019

Алгоритм автоматического определения органов на лице. Анализ существующих подходов к распознаванию лиц. Как будет выглядеть будущее с распознаванием лиц


Биометрическую систему распознавания лиц планируется включить в стандарт «смарт-сити» для российских городов, который начал разрабатывать Минстрой. Об этом рассказал «Известиям» замглавы ведомства Андрей Чибис. Он отметил, что такую технологию было бы удобно использовать в общественном транспорте: пассажир заходит в автобус, программа его узнает и списывает за проезд деньги с банковского счета. Министерство намерено ознакомиться с опытом китайских городов и распространить подобные технологии в России.

Министерство планирует привлечь китайские компании, в том числе Huawei, к внедрению совместно с «Ростелекомом» технологии биометрии и анализа событий в российских городах. Об этом сообщил «Известиям» заместитель министра строительства и ЖКХ Андрей Чибис. По его словам, в случае успеха эта система ляжет в основу стандарта «смарт-сити» - минимального набора решений для повышения комфортности городов. К разработке стандарта ведомство уже приступило.

Представители министерства планируют посетить Китай, чтобы оценить, как современные технологии, включая биометрию, работают там.

Насколько я знаю, сейчас идет дискуссия по поводу внедрения такой технологии в Москве. Очевидно, что из-за необходимости использовать карточки, время посадки пассажиров затягивается. А алгоритм распознавания лиц работает так: пассажир заходит в метро или автобус, программа его распознает и списывает за проезд деньги с банковского счета, - привел пример Андрей Чибис.

Во многих городах уже установлено значительное количество камер, то есть инфраструктура в целом создана, подчеркнул чиновник. Вопрос в нормативном регулировании и реализации пилотных проектов - в случае их успеха дальнейший процесс будет стремителен: «как в свое время быстро ушли от жетонов в метро, так можем уйти и от турникетов».

В пресс-службе «Ростелекома» отметили, что идентификация пассажиров в городском транспорте, в том числе для оплаты проезда, - это одна из самых очевидных возможностей использования системы.

В мире есть реальные примеры, и в России создание такого рода решений ожидается уже в скором времени, - подтвердили «Известиям» в компании.

Проект «Умный город», в рамках которого планируется развивать новую технологию, рассчитан на шесть лет. По словам Андрея Чибиса, никто не говорит, что в течение этого срока везде обязательно появится система распознавания лиц, но нужно двигаться в этом направлении. «Это же не только вопрос безопасности, но и комфорта. Мы изучим эту технологию и в ближайшее время определимся с возможностью внедрения - конечно, в первую очередь, с точки зрения ее стоимости», - указал он.

Генеральный директор компании VisionLabs, специализирующейся на компьютерном зрении, Александр Ханин отмечает, что процесс установки камер и серверов технически несложный, поэтому в ближайшем будущем подобные системы могут быть внедрены повсеместно. Их можно использовать в том числе для поиска пропавших, считает он. Стоимость подключения к каждой камере зависит от сценария использования и типа камеры: от 200 рублей до нескольких тысяч.

Заведующий кафедрой телекоммуникационных систем Московского института электронной техники Александр Бахтин отметил, что сети городов готовы к передаче таких данных. Однако на начальном этапе внедрения новых технологий всегда есть риск нарушения конфиденциальности. Существует достаточно много точек, в которых сведения могут быть перехвачены. Но после тестовых испытаний система выстраивается и эффективно работает.

Томограф в поликлинике генерирует гораздо больше информации, чем видеопоток из какого-нибудь автобуса. Вопрос в том, кто ее анализирует и в каких целях. Хотелось бы, чтобы законодательство защищало нас от тех сотрудников, которые используют персональные данные неправомочно, - сказал «Известиям» Александр Бахтин.

В «Ростелекоме» признают, что оборот таких данных - очень чувствительная тема, поэтому, как и в других странах, в России единая биометрическая система создается под контролем государства. На первом этапе в сотрудничестве с Центробанком она внедряется в интересах банковской сферы. Уже проводились эксперименты по распознаванию лиц для бесконтактного прохода в музеи, и в дальнейшем система будет развиваться, уверены в компании.

В сентябре 2017 года о внедрении системы видеонаблюдения с функцией распознавания лиц объявили власти Москвы. Сообщалось, что столичная сеть включает в себя 160 тыс. видеокамер и охватывает 95% подъездов жилых домов. Лица на записях сканируются, чтобы при необходимости можно было сравнить данные с информацией в различных базах - например, правоохранительных органов, когда речь идет о поиске правонарушителя, указано на портале мэра Москвы. Система способна установить личность человека на видео, его пол и возраст.

Госкорпорация «Ростех» применила технологию распознавания лиц во время ЧМ-2018. С ее помощью, например, удалось вычислить фаната, которому по решению суда запрещено посещать спортивные мероприятия. Алгоритм позволяет узнавать лица с точностью до 99%. В госкорпорации отмечали, что поиск конкретного человека среди миллиарда лиц занимает менее полусекунды.

Юбилейный iPhone X получил одну из самых неординарных фишек среди конкурентов. Флагман умеет распознавать лицо владельца, а вместо Touch ID и кнопки «Домой» инженеры интегрировали камеру TrueDepth и функцию Face ID.

Быстро, моментально и без необходимости вводить пароли. Так можно разблокировать iPhone X уже сегодня.

Apple известна тем, что всегда смотрит в технологическое будущее намного раньше, чем очередная функция становится стандартом. В случае с iPhone X и сканером лица компания уверена, что за распознаванием лиц будущее.

Разберемся, заблуждается ли Apple или наши лица – это верный пропуск в цифровое будущее.

😎 Рубрика «Технологии» выходит каждую неделю при поддержке re:Store .

Так как работает распознавание лиц?

Для работы технологии распознавания лиц нужно несколько составляющих. Во-первых, сам сервер, на котором будет храниться и база данных, и подготовленный алгоритм сравнения.

Во-вторых, продуманная и натренированная нейросеть, которой скормили миллионы снимков с пометками. Обучают такие сети просто. Загружают снимок и представляют его системе: «Это Виктор Иванов», затем следующий.

Нейронная сеть самостоятельно распределяет векторы признаков и находит геометрические закономерности лица таким образом, чтобы затем самостоятельно узнать Виктора из тысяч других фотографий.

В той же технологии FaceN, о которой мы поговорим ниже, используется около 80 различных числовых признаков-характеристик.

Почему про распознавание лиц внезапно заговорили?

В середине 2016 года интернет буквально взорвало приложение и одноименный . Используя нейронные сети, разработчики сумели воплотить в жизнь самую смелую мечту пользователей социальных сетей.

Увидев человека на улице, вы могли сфотографировать его на смартфон, отправить фото в FindFace, и через несколько секунд найти его страничку во «ВКонтакте». Алгоритм совершенствовался, допиливался и все лучше и лучше распознавал лица.

А начиналось все с распознавания пород собак по фотографии. Автор технологии распознавания FaceN и приложения Magic Dog, Артем Кухаренко. Парень быстро смекнул, что за этой технологией будущее и приступил к разработке.

После успеха приложения FindFace, основатель компании-разработчика N-Tech.Lab Кухаренко в очередной раз убедился в том, что распознавание лиц интересно практически в любой отрасли:

  • пограничные службы
  • казино
  • аэропорты
  • любые места скопления людей
  • маркеты
  • парки развлечений
  • спецслужбы
  • В мае 2016 года N-Tech.Lab приступило к тестированию сервиса совместно с правительством Москвы. По всей территории столицы разместили десятки тысяч камер, которые в режиме реального времени опознавали прохожих.

    Трустори. Вы просто проходите по двору, в котором установлена подобная камера. К ней подключена база преступников и пропавших людей. В случае, если алгоритм определяет, что вы схожи с подозреваемым, сотрудник полиции тут же получает предупреждение.

    Разумеется, человека тут же можно найти в социальной сети и пробить по любым базам. А теперь представьте, что такие камеры установлены по периметру всего города. Скрыться злоумышленнику не удастся. Камеры есть везде: во дворах, на подъездах, на трассах.

    А как дела с распознаванием лиц в России

    Вы удивитесь, но с середины 2016 года градоначальники Москвы активно внедряют систему распознавания лиц по всей территории города.

    На сегодняшний день только на подъездах московских многоэтажек установлено более 100 тысяч камер , умеющих распознавать лица. Более 25 тысяч установлены во дворах. Разумеется, точные цифры засекречены, но можете сомневаться – активный контроль распространяется быстрее, чем вы можете себе представить.

    В столице системы распознавания лиц устанавливаются повсеместно: от площадей и мест большого скопления людей, до общественного транспорта. Со дня установки систем удалось задержать более десяти преступников, но это только по официальным данным.

    Все камеры постоянно обмениваются информацией с Единым вычислительным центром Департамента информационных технологий. Подозрительные оповещения тут же проверяются правоохранительными органами.

    И это только начало. В конце прошлого года аналогичную систему контроля стали тестировать и на улицах Санкт-Петербурга. Удобство предложенной FindN технологии в том, что вовсе необязательно устанавливать какие-то специальные камеры.

    Изображение со стандартных камер видеонаблюдения поступает на обработку «умному» алгоритму и настоящая магия происходит уже там. По актуальным данным точность распознавания FindFace сегодня варьируется в пределах 73% – 75%. Разработчики уверены, что смогут добиться результата в 100% уже в ближайшее время.

    Как вообще появилось распознавание лиц?

    Изначально любой тип биометрической идентификации использовался исключительно внутри правоохранительных органов и служб, где безопасность в приоритете. Буквально за несколько лет измерение анатомических и физиологических характеристик для идентификации личности стало стандартом практически во всех потребительских гаджетах.

    Типов биометрической аутентификации масса:

  • по ДНК
  • по радужной оболочке глаза
  • по ладони
  • по голосу
  • по отпечатку пальца
  • по лицу
  • И именно последняя технология особенно интересна, поскольку имеет сразу несколько преимуществ перед другими.

    Прообразом технологии распознавания лиц в XIX веке служили сперва «портреты по описанию», а позже – фотографии. Так полиция могла идентифицировать преступников. В 1965 году специально для правительства США была разработана полуавтоматическая система распознавания лиц. В 1971 к технологии вернутся, обозначив основные маркеры, необходимые для распознавания лиц, но ненадолго.

    С тех пор в качестве главного биометрического идентификатора спецслужбы все же предподчитают проверенную технологию снятия отпечатков пальцев.

    А все потому, что технологии не позволяли как-либо взаимодействовать с чертами лица человека. Ультраточных лазеров, инфракрасных датчиков и мощных процессоров, как и самих систем распознавания, на тот момент не было.

    С появлением мощных компьютеров, практически все ведомства возвращаются к идентификации посредством сканирования лица. Бум на технологию в ведомствах и спецучреждениях приходится на середину 2000-х годов, а в прошлом году технология стала впервые использоваться и в потребительских устройствах.

    Где сегодня используют технологию распознавания лиц

    В смартфонах

    Популяризация технологии распознавания лиц началась с флагмана Apple. iPhone X задал тренд на последующие годы и OEM-производители активно приступили к интеграции аналогов Face ID в свои устройства.

    В банках

    Биометрическое распознавание лиц уже не первый год используется в США. Теперь же технология добралась и до России. Только за 2017 год благодаря внедрению данной системы удалось предотвратить более 10 тысяч мошеннических сделок и сохранить сумму в размере 1,5 млрд рублей.

    Распознавание лиц используется для идентификации клиента и принятия решения по возможности выдачи кредита.

    В магазинах

    Сегмент ритейла используют технологию по-своему. Так, если вы покупали какую-либо бытовую технику в магазине, а спустя какое-то время вернулись в него за очередными покупками, система распознавания лиц тут же идентифицирует вас еще на входе. Продавец тут же получит информацию из базы и узнает не только ваше имя, но и историю покупок. Дальнейшее поведение продавца предугадать несложно.

    В жизни городов

    Это именно то, ради чего разрабатывается и развивается технология. От стадионов до кинотеатров – везде, где огромное количество людей, идентификация особо важна. Сегодня технология распознавания лиц позволяет предотвратить массовые беспорядки и террористические акты.

    Какие компании интересуются распознаванием лиц

    Google, Facebook, Apple и прочие IT-гиганты сейчас занимаются активной скупкой проектов от разработчиков, занимающихся распознаванием лиц. Все они видят в технологии огромный потенциал.

    Это лишь часть официально анонсированных сделок. На деле их намного больше. Помимо интеграции Face ID и аналогов технологии в смартфоны, у ведущих IT-компаний намного большие виды на использование распознавания лиц.

    Как будет выглядеть будущее с распознаванием лиц

    С тем, какие преимущества открывает технология сканирования лица в смартфонах и электронных устройствах, мы уже разобрались, то давайте заглянем в недалекое будущее и представим один день из жизни человека, который попал в город, где повсеместно установлены камера распознавания лиц.

    Доброе утро! Улыбочку, на вас смотрит система «умный» дом. Мда, хозяин, выпито вчера было немало – по лицу вижу, с трудом опознала. Так, рядом супруга, в прихожей доедает вечерний корм Барсик. Посторонних нет. Замечательно.

    Один взгляд на кофеварку на расстоянии «чуть ближе обычного» и ваш американо средней крепости со слегка теплым молоком готовится. Оп, кто-то у дверей! Ах, это же любимая теща. Проходите, для вас дверь открыта – ваше лицо не забудет ни одна система распознавания в мире.

    Вы собрались и подходите к лифту. Нет-нет, это система распознавания уже в курсе, что вы предпочитаете садится в крайний лифт, поэтому он уже вызван.

    Завидев вас издалека, 500-сильный электрокар автоматически подстроил вылет руля и подкорректировал положение кресла. Дверь открыта – присаживайтесь.

    Пока производители систем автопилота безуспешно пытаются убедить законодательство в необходимости внедрения беспилотных автомобилей, старайтесь не нарушать ПДД. Камеры наблюдения повсюду, а оплата штрафа неизбежна. Ведь за рулем точно вы, и, как только вы вдавите педаль акселератора в пол, с вашей банковской карты спишется штраф за превышение скорости.

    Наконец, мы у здания офиса той самой компании, которая занимается внедрением технологии распознавания лиц в инфраструктуру городов России. Да, это ваша работа. Контроль жесткий, но вам не стоит переживать – пока вы парковали машину, камеры уже узнали вас.

    Работать стало сложнее: по всему периметру офиса камеры распознавания, которые «видят» кто и чем занимается, а заодно умеют читать эмоции. Короче, валять дурака на рабочем месте не выйдет.

    Задача выделения лица человека в естественной или искусственной обстановке и последующей идентификации всегда находилась в ряду самых приоритетных задач для исследователей, работающих в области систем машинного зрения и искусственного интеллекта. Тем не менее, множество исследований, проводящихся в ведущих научных центрах всего мира в течение нескольких десятилетий, так и не привело к созданию реально работающих систем компьютерного зрения, способных обнаруживать и распознавать человека в любых условиях. Несмотря на близость задач и методов, используемых при разработке альтернативных систем биометрической идентификации человека таких, как идентификация по отпечатку пальца или по изображению радужной оболочки, системы идентификации по изображению лица существенно уступают вышеперечисленным системам.

    Серьезной проблемой, стоящей перед системами компьютерного зрения, является большая изменчивость визуальных образов, связанная с изменениями освещенности, окраски, масштабов, ракурсов наблюдения. Кроме того, люди имеют привычку ходить по улицам и в помещении одетыми, что приводит к существенной изменчивости изображений одного и того же человека. Однако наиболее сложной задачей компьютерного зрения является проблема устранения неоднозначности, возникающей при проектировании трехмерных объектов реального мира на плоские изображения. Цвет и яркость отдельных пикселов на изображении также зависит от большого количества трудно прогнозируемых факторов. В число этих факторов входят:

    1. число и расположение источников света;
    2. цвет и интенсивность излучения;
    3. тени или отражение от окружающих объектов.

    Задача обнаружения объектов на изображении осложняется также огромным объемом данных, содержащихся в изображении. Изображение может содержать тысячи пикселов, каждый из которых может иметь важное значение. Полное использование информации, содержащейся в изображении, требует анализа каждого пиксела на принадлежность его объекту или фону с учетом возможной изменчивости объектов. Такой анализ может потребовать высоких затрат в требуемой памяти и производительности компьютера.

    Решение этой проблемы лежит в правильном выборе описания объектов, для обнаружения и распознавания которых создается система. Описание объекта должно его учитывать наиболее характерные особенности и быть достаточно представительным, чтобы отличать данный объект от остальных элементов окружающей сцены. Чтобы избежать субъективности при выборе нужного описания, можно использовать методы автоматического выбора подходящих характеристик объекта, которые реализуются в генетических алгоритмах и при обучении искусственных нейронных сетей. В то же время существует ряд параметров в описании объекта, которые в настоящее время должен выбрать исследователь, разрабатывающий систему обнаружения и распознавания. К такому выбору относятся:

    1. выбор между 2D и 3D-представлением сцены и объекта. Алгоритмы, использующие 2D-представление, обычно более простые, чем 3D- алгоритмы, но в то же время требуют большого числа различных описаний, соответствующих представлению объекта в различных условиях наблюдения;
    2. выбор между описанием объекта как единого целого или как системы, состоящей из некоторого множества взаимосвязанных элементов;
    3. выбор между системой признаков, основывающихся на геометрических или иных описывающих специфику объекта характеристиках.

    В самом общем случае алгоритм решения задачи обнаружения и идентификации человека по изображению его лица состоит из следующих очевидных шагов:

    1. обнаружение факта присутствия человека на анализируемой сцене;
    2. выделение фигуры человека;
    3. выделение головы;
    4. определение ракурса наблюдения головы (анфас, профиль);
    5. выделение лица;
    6. сравнение с эталонами и идентификация.

    В зависимости от конкретных условий структура и реализация отдельных шагов алгоритма могут различаться. В наиболее сложном случае, при использовании системы обнаружения и идентификации человека по изображению его лица в сильно изменяющейся обстановке, с большим потоком входных данных (работа на городских улицах с интенсивным движением, в метро, аэропортах и т. д.), требуется использование максимально доступной информации для достижения удовлетворительных результатов работы алгоритма. Алгоритм должен уметь эффективно отсекать статические и медленно изменяющиеся элементы сцены, работать в различных условиях освещенности, опознавать фигуру человека под различными ракурсами, отслеживать передвижение множества людей и автоматически выбирать момент, подходящий для выполнения идентификации данного человека (например, когда можно получить фронтальное изображение лица с достаточным разрешением). Для обеспечения таких возможностей алгоритма необходима определенная аппаратурная насыщенность системы, включающая многокамерный обзор и анализ сцены с возможностью выделения 3D-структуры сцены, скоростной ввод видеопотока для фильтрации элементов сцены по параметрам движения, использование цвета для выделения элементов сцены. Кроме того нужны камеры с высоким разрешением и хорошей оптикой для обеспечения возможно большей дальности достоверной идентификации. В более простых случаях, при статичной сцене и ограниченном потоке событий (появлений людей), возможно использование более простой структуры аппаратного обеспечения и алгоритма, например, стереопары или одной камеры и заранее подготовленной модели сцены может быть достаточно для достоверного определения факта нахождения человека в зоне контроля, выделения его фигуры и идентификации. Задача определения факта присутствия человека на сцене, требует от алгоритма определенного уровня интеллекта. Это не должна быть система, реагирующая просто на факт изменения сцены. Алгоритм обнаружения человека не должен давать ложные тревоги при изменениях освещенности, движении теней от статических объектов, появлении в зоне контроля животных и т. д. В случае, когда это необходимо, появляется проблема создания адекватного описания сцены. Это описание может представлять трехмерную модель сцены, вероятностную модель распределения цветов или яркостей элементов сцены или систему признаков, отличающую элементы сцены от объектов распознавания (в нашем случае - человеческих фигур). Отношения между элементами сцены, считающимися фоном, или элементам переднего плана могут изменяться. Та же фигура человека, если ее изображение меньше некоторого порогового значения, определяемого разрешением оптической системы, может быть отнесена к элементам фона, так как ее анализ является непродуктивным для выполнения основной задачи - идентификации человека.

    Выбор алгоритма, используемого для идентификации человека по изображению его лица, также зависит от конкретных условий его применения. Например, с задачей распознавания в строго ограниченном коллективе легко справляется многослойная нейронная сеть. В то же время задача обнаружения конкретного человека в толпе (с неопределенным составом) требует применения изощренных методов для снижения уровня ложных тревог. Скорее всего, в этом случае потребуется многоуровневая система, содержащая множество анализаторов, работающих в разных признаковых пространствах, с принятием решения методом голосования. На начальных этапах работы система идентификации должна отсекать заведомо неподходящих кандидатов и использовать оставшееся множество кандидатов для принятия окончательного решения об идентификации.

    Ниже представлен обзор по существующим методам обнаружения и идентификации человека по изображению его лица. В обзор включались только те методы, которые, по мнению авторов, наиболее широко используются в современных алгоритмах обнаружения человека и его персональной идентификации по изображениям лица в естественной обстановке.

    При всем многообразии различных алгоритмов и методов распознавания изображений, типичный метод распознавания состоит из трех основных компонент:

    1. преобразование исходного изображения в стандартное представление;
    2. выделение ключевых характеристик;
    3. механизм классификации (моделирования): кластерная модель, метрика, нейронная сеть и т. п.

    Кроме этого, построение метода распознавания опирается на априорную информацию о предметной области (в данном случае - характеристики лица человека) и корректируется экспериментальной информацией, появляющейся по ходу разработки метода.

    Метод главных компонент.

    Метод главных компонент (Principal Component Analysis, {PCA}) применяется для сжатия информации без существенных потерь информативности. Он состоит в линейном ортогональном преобразовании входного вектора $\textbf{x}$ размерности $N$ в выходной вектор $\textbf{y}$ размерности $M$, $N>M$. При этом компоненты вектора $\textbf{y}$ являются некоррелированными и, следовательно, общая дисперсия после преобразования остается неизменной. Матрица $\textbf{X}$ состоит из всех примеров изображений обучающего набора. Решив уравнение $\boldsymbol\Lambda = \boldsymbol{\Phi}^T \boldsymbol{\Sigma}\boldsymbol{\Phi} $, получаем матрицу собственных векторов $\boldsymbol{\Phi}$, где $\boldsymbol{\Sigma}$ - ковариационная матрица для $\textbf{x}$, а $\boldsymbol{\Lambda}$ - диагональная матрица собственных чисел. Выбрав из $\boldsymbol{\Phi}$ подматрицу $\boldsymbol{\Phi}_M$, соответствующую $M$ наибольшим собственным числам, получим, что преобразование $\textbf{y} = \boldsymbol{\Psi}_M^T \widetilde{\textbf{x}}$, где $\widetilde{\textbf{x}} = \textbf{x} - \overline{\textbf{x}}$ - нормализованный вектор с нулевым математическим ожиданием, характеризует большую часть общей дисперсии и отражает наиболее существенные изменения $\textbf{x}$. Выбор первых $M$ главных компонент разбивает векторное пространство на главное (собственное) пространство $F = \left\{\boldsymbol{\Phi}_i\right\}_{i=1}^M$, содержащее главные компоненты, и его ортогональное дополнение $F = \left\{\boldsymbol{\Phi}_i\right\}_{i=M+1}^{N}$. В качестве индикаторов принадлежности в методе главных компонент используют:

    DIFS - distance in feature space, расстояние от образа анализируемого изображения в собственном пространстве, до эталонного образа;

    DFFS - distance from feature space, расстояние от представления анализируемого изображения в пространстве наблюдения до проекции эталона в собственном пространстве.

    Пример изображений собственных векторов (собственные лица)

    Применение для задачи распознавания человека по изображению лица имеет следующий вид. Входные векторы представляют собой отцентрированные и приведенные к единому масштабу изображения лиц. Собственные векторы, вычисленные для всего набора изображений лиц, называются собственными лицами (eigenfaces). Метод главных компонент в применении к изображениям лиц также называют методом собственных лиц (рис. 1). С помощью вычисленных ранее матриц входное изображение разлагается на набор линейных коэффициентов, называемых главными компонентами. Сумма $N$ первых главных компонент, умноженных на соответствующие собственные векторы, является аппроксимацией изображения порядка $N$ (рис. 2).

    Нормализованное изображение лица ($\textit{а}$) и его реконструкция по $85$ главным компонентам ($\textit{б}$)

    Для каждого изображения лица вычисляются его главные компоненты. Обычно берется от $5$ до $200$ главных компонент. Остальные компоненты кодируют мелкие различия между лицами и шум. Процесс распознавания заключается в сравнении главных компонент неизвестного изображения с компонентами всех остальных изображений. Для этого обычно применяют какую-либо метрику (простейший случай - Евклидово расстояние). Дополнительное повышение надежности достигается за счет дополнительного применения анализа главных компонент к отдельным участкам лица таким, как глаза, нос, рот.

    Также метод главных компонент применяется для обнаружения лица на изображении. Для лиц значения компонент в собственном пространстве имеют большие значения, а в дополнении собственного пространства - близки к нулю. По этому факту можно обнаружить, является ли входное изображение лицом. Для этого проверяется величина ошибки реконструкции; чем больше ошибка, тем больше вероятность, что это не лицо. При наличии в наборе изображений лиц вариаций таких, как раса, пол, эмоции, освещение, будут появляться компоненты, величина которых в основном определяется этими факторами. Поэтому по значениям соответствующих главных компонент можно определить, например, расу или пол человека. Основные недостатки PCA таковы. Метод собственных лиц требует для своего применения идеализированных условий таких, как единые параметры освещенности, нейтральное выражение лица, отсутствие помех вроде очков и бород. При несоблюдении этих условий главные компоненты не будут отражать межклассовые вариации. Например, при различных условиях освещенности метод собственных лиц практически неприменим, поскольку первые главные компоненты преимущественно отражают изменения освещения, и сравнение выдает изображения, имеющие похожий уровень освещенности.

    Вычисление набора собственных векторов отличается высокой трудоемкостью. Один из способов - это свертка изображений по строкам и столбцам; в такой форме представление изображения имеет на порядок меньший размер, вычисления и распознавание происходит быстрее, но восстановить исходное изображение уже невозможно.

    Линейный дискриминантный анализ.

    Линейный дискриминантный анализ (линейный дискриминант Фишера Linear Discriminant Analysis, {LDA}) использует такую проекцию пространства изображений на пространство признаков, которая минимизирует внутриклассовое и максимизирует межклассовое расстояние в пространстве признаков. В этих методах предполагается, что классы линейно разделимы.

    Матрица $\textbf{W}$ для проецирования пространства изображения на пространство признаков выбирается из следующего условия: $$ \textbf{W}_{\textrm{opt}}= \textrm{arg} \max_\textbf{W} \frac{\textbf{W}^T \textbf{S}_\textbf{B} \textbf{W}}{\textbf{W}^T \textbf{S}_\textbf{W} \textbf{W}}, $$ где $\textbf{S}_{\textbf{B}}$ - матрица межклассовой дисперсии, $\textbf{S}_{\textbf{W}}$ - матрица внутриклассовой дисперсии.

    Может существовать до $c-1$ векторов составляющих базис пространства признаков, где $c$ - общее число классов. С помощью этих векторов пространство изображений переводится в пространство признаков.

    Поскольку работа непосредственно с матрицей $\textbf{S}_\textbf{W} \in {R}^{n\times n} $ затруднительна из-за ее размерности, используется предварительное уменьшение размерности с помощью метода главных компонент, и затем вычисления производятся в пространстве меньшей размерности: $$ \textbf{W}_\textrm{fld}=\textrm{arg} \max_\textbf{W} \frac{\textbf{W}^T \textbf{W}_{\textrm{pca}}^T \textbf{S}_\textbf{B} \textbf{W}_{\textrm{pca}} \textbf{W}}{\textbf{W}^T \textbf{W}_{\textrm{pca}}^T \textbf{S}_\textbf{W} \textbf{W}_{\textrm{pca}} \textbf{W}}, $$ где $\textbf{W}_{\textrm{pca}}$ - матрица для проецирования в пространство меньшей размерности (пространство главных компонент).

    Обычно тренировочный набор содержит изображения лиц при нескольких базовых условиях освещенности, на основе которых при помощи линейных комбинаций можно получить любые другие условия освещенности. Этот метод дает высокую точность распознавания (около 96{\%}) для широкого диапазона условий освещенности, различных выражений лица и наличия или отсутствия очков. Однако остаются невыясненными вопросы, применим ли этот метод для поиска в больших базах данных, может ли метод работать, когда в тренировочной выборке для некоторых лиц имеется изображение только в одних условиях освещенности. Для задачи детектирования лица с помощью LDA-классы лиц и "не лиц" разбивают на подклассы. Вышеописанный метод основывается на предположении о линейной разделимости классов в пространстве изображений. В общем случае такое предположение несправедливо. Инструмент для построения сложных разделяющих поверхностей предлагают нейросетевые методы.

    Синтез объектов линейных классов.

    Данный метод позволяет синтезировать новые изображения объекта (и в частности, изображения лица) для разных ракурсов. Имеется тренировочный набор изображений лиц и только одно изображение нового объекта в определенном ракурсе. Тренировочный набор состоит из изображений объектов того же класса (класс лиц в данном случае), что и новый объект, и включает в себя изображения различных лиц, причем для каждого лица имеются его изображения в широком диапазоне ракурсов. Для нового объекта, имеющего изображение $X^{A}$ в ракурсе $A$, осуществляется линейное разложение на изображения объектов из тренировочного набора в том же ракурсе, с вычислением коэффициентов $\alpha_i: X^A = \sum_{i=1}^{q}\alpha_i X_i^A , $ где $q$ - количество объектов в тренировочном наборе. Синтез изображения $X^{B}$ в новом ракурсе $B$ для нового объекта осуществляется сложением изображений из тренировочного набора в ракурсе $B$ с теми же коэффициентами: $X^B = \sum_{i=1}^{q}\alpha_i X_i^B $. Таким образом, метод позволяет синтезировать изображения нового объекта в различных ракурсах по изображению в одном ракурсе без привлечения сложных трехмерных моделей. Данный метод является перспективным для синтеза изображений в новых ракурсах без привлечения сложных трехмерных моделей, однако вопрос о качестве и количестве примеров в тренировочном наборе остается открытым.

    Гибкие контурные модели лица.

    В данных методах распознавание производится на основе сравнения контуров лица. Контуры обычно извлекаются для линий головы, ушей, губ, носа, бровей и глаз. Контуры представлены ключевыми позициями, между которыми положение точек, принадлежащих контуру, вычисляются интерполированием. Для локализации контуров в различных методах используется как априорная информация, так и информация, полученная в результате анализа тренировочного набора. Обычно ключевые точки размещаются вручную на наборе тренировочных изображений. При поиске контуров нового лица используется метод симуляции отжига с целевой функцией из двух составляющих. Для первой из них ищется максимум при соответствии интенсивностей пикселов, извлеченных на перпендикулярной контуру линии, аналогичным пикселам из тренировочной выборки, для второй - при совпадении контура с формой контуров тренировочных примеров. Таким образом, извлекается контур черт лица. Для сравнения изображений используются значения главных компонент, вычисленные на наборе векторов, представляющих собой координаты ключевых точек. Главной задачей при распознавании по контурам является правильное выделение этих контуров. В общем виде эта задача по сложности сравнима непосредственно с распознаванием изображений.

    Сравнение эластичных графов.

    В этом методе (Elastic Bunch Graph Matching) лицо представляется в виде графа, вершины которого расположены на ключевых точках лица таких, как контуры головы, губ, носы, и их крайних точках. Каждая грань помечена расстояниями между ее вершинами. В каждой такой точке вычисляются коэффициенты разложения по функциям Габора для пяти различных частот и восьми ориентаций. Набор таких коэффициентов $\textbf{J} = \{J_j\}$ называется $\textit{джетом}$ (jet). Джеты характеризуют локальные области изображений и служат для двух целей: во-первых, для нахождения точек соответствия в заданной области на двух различных изображениях; во-вторых - для сравнения двух соответствующих областей различных изображений. Каждый коэффициент $J_j = a_j \exp (i \phi_j)$ для точек из одной области различных изображений характеризуется амплитудой $a_j$, которая медленно меняется с изменением положения точки, и фазой $\phi_j$, которая вращается со скоростью, пропорциональной частоте волнового вектора базисной функции. Поэтому в простейшем случае для поиска на новом изображении точки с аналогичными характеристиками в функции подобия фазу не учитывают: $$ S_a(\textbf{J}, \textbf{J}") = \frac{\sum_j a_ja_j^{\prime}}{\sqrt{\sum_j a_j^2 \sum_j a_j^{\prime 2}}} .$$ Функция подобия с одним джетом в фиксированной позиции и другим с переменной позицией является достаточно гладкой, для того чтобы получить быструю и надежную сходимость при поиске с применением простейших методов таких, как диффузия или градиентный спуск. Более совершенные функции подобия привлекают информацию о фазе. Для различных ракурсов соответствующие ключевые точки отмечаются вручную на тренировочном наборе. Кроме того, чтобы для одного и того же лица представить различные вариации его изображения в одном и том же графе, для каждой точки используются несколько джетов, каждый из которых может соответствовать различным локальным характеристикам данной точки, например, открытому и закрытому глазу. Процесс распознавания неизвестного лица состоит в сравнении графа изображения лица $G^I$ со всеми остальными графами из набора $B$ при помощи функции подобия $$ S_B (G^I , B)= \frac{1}{N} \sum_n \max_m S_{\phi}(J_n^I , J_n^{Bm})- \frac{\lambda}{E}\sum_e \frac{(\Delta \textbf{x}_e^I - \Delta \textbf{x}_e^B)^2}{(\Delta \textbf{x}_e^B)^2}. $$

    Левая сумма характеризует подобие джетов, вычисленное с применением фазочувствительной функции, правая - топографическое соответствие, которое пропорционально квадрату разности расстояний между соответствующими вершинами сравниваемых изображений, $N$ - количество вершин, $E$ - количество граней, $\lambda$ - коэффициент относительной важности топографической информации.

    В представленном выше виде метод способен достаточно надежно распознавать при изменениях ракурса до $20$° ; при больших углах точность распознавания резко уменьшается, функция подобия оказывается более чувствительной к ракурсу, чем к межклассовым различиям. Дальнейшее развитие метода заключается в извлечении коэффициентов важности на основе анализа обучающей выборки. Для каждого джета симплекс-методом вычисляется коэффициент важности, который затем используется в функции подобия. Коэффициенты важности вычисляются из условия максимизации функции подобия для одного и того же лица и минимизации - для различных лиц. Существуют также более ранние разновидности этого метода, которые не используют изначально определенные ключевые точки и структуры графа. Одни из них используют для сравнения решетки джетов, наложенные на изображение, рис. 3. В неизвестном изображении отыскиваются точки соответствия, и затем по найденным точкам строится искаженная решетка и измеряется мера ее искажения для определения наиболее похожего изображения. В других методах точки извлечения джетов изначально образуют решетку, а затем наименее пригодные для распознавания точки отсеиваются в процессе обучения.

    Наложенная на изображение эластичная решетка и ее искаженная версия

    Методы, основанные на геометрических характеристиках лица.

    Один из самых первых методов - это анализ геометрических характеристик лица. Изначально он применялся в криминалистике и был там детально разработан. Потом появились компьютерные реализации этого метода. Суть его заключается в выделении набора ключевых точек (или областей) лица и последующем выделении набора признаков. Каждый признак является либо расстоянием между ключевыми точками, либо отношением таких расстояний. В отличие от метода сравнения эластичных графов, здесь расстояния выбираются не как дуги графов. Наборы наиболее информативных признаков выделяются экспериментально.

    Ключевыми точками могут быть уголки глаз, губ, кончик носа, центр глаза и т. п. рис. 4. В качестве ключевых областей могут служить прямоугольные области, включающие в себя: глаза, нос, рот.

    В процессе распознавания сравниваются признаки неизвестного лица с признаками, хранящимися в базе. Задача нахождения ключевых точек приближается к трудоемкости непосредственно распознавания, и правильное нахождение ключевых точек на изображении во многом определяет успех распознавания. Поэтому изображение лица человека должно быть без помех, мешающих процессу поиска ключевых точек. К таким помехам относят очки, бороды, украшения, элементы прически и макияжа. Освещение желательно равномерное и одинаковое для всех изображений. Кроме того, изображение лица должно иметь фронтальный ракурс, возможно, с небольшими отклонениями. Выражение лица должно быть нейтральным. Это связано с тем, что в большинстве методов нет модели учета таких изменений.

    Таким образом, данный метод предъявляет достаточно строгие требования к условиям съемки и нуждается в надежном механизме нахождения ключевых точек для общего случая. Кроме того, требуется применение более совершенных методов классификации или построения модели изменений. В общем случае этот метод не является самым оптимальным, однако для некоторых специфических задач все же перспективен. К таким задачам можно отнести документный контроль, когда требуется сравнить изображение лица, полученного в текущий момент, с фотографией в документе. При этом других изображений этого человека не имеется, и, следовательно, механизмы классификации, основанные на анализе тренировочного набора, недоступны.

    Идентификационные точки и расстояния: $\textit{а}$ - используемые при криминалистической экспертизе; $\textit{б}$ - наиболее часто применяемые при построении автоматизированных систем идентификации

    Сравнение шаблонов.

    Сравнение шаблонов (Template Matching) заключается в выделении областей лица на изображении рис. 5, и последующем сравнении этих областей для двух различных изображений. Каждая совпавшая область увеличивает меру сходства изображений. Это также один из исторически первых методов распознавания человека по изображению лица. Для сравнения областей используются простейшие алгоритмы вроде попиксельного сравнения.

    Недостаток этого метода заключается в том, что он требует много ресурсов как для хранения участков, так и для их сравнения. Ввиду того, что используется простейший алгоритм сравнения, изображения должны быть сняты в строго установленных условиях: не допускается заметных изменений ракурса, освещения, эмоционального выражения и пр.

    Области, входящие в шаблон лица

    Скрытые Марковские модели.

    Марковские модели являются мощным средством моделирования различных процессов и распознавания образов. По своей природе Марковские модели позволяют учитывать непосредственно пространственно-временные характеристики сигналов, и поэтому получили широкое применение в распознавании речи, а в последнее время - изображений (в частности, изображений лиц). Каждая модель $\lambda = \langle \textbf{A}, \textbf{B}, \boldsymbol\pi \rangle$, представляет собой набор $N$ состояний $S = \{S_1 , S_2 , \ldots , S_N\}$, между которыми возможны переходы. В каждый момент времени система находится в строго определенном состоянии. В наиболее распространенных Марковских моделях $\textit{первого порядка}$ полагается, что следующее состояние зависит только от текущего состояния. При переходе в каждое состояние генерируется наблюдаемый символ, который соответствует физическому сигналу с выхода моделируемой системы. Набор символов для каждого состояния $V = \{v_1 , v_2 , \ldots, v_M \}$, количество символов $M$. Выход, генерируемый моделью, может быть так же непрерывным. Существуют так же модели, в которых набор символов для всех состояний одинаков. Символ в состоянии $q_t = S_j$ в момент времени $t$ генерируется с вероятностью $b_{j k} = P (v_{k} | q_i = S_j)$. Набор всех таких вероятностей составляет матрицу $\textbf{B}= \{b_{j k}\}$.

    Матрица $\textbf{A} = ||a_{ij}||$ определяет вероятность перехода из одного состояния в другое: $a_{ij} = P (q_{i+1} = S_j | q_i = S_i)$, $1\le i, j \le N$. Считается, что $A$ не зависит от времени. Если из каждого состояния можно достичь любого другого за один переход, то все $a_{ij} > 0$, и модель называется эргодической. Модель имеет вероятность начальных состояний $\boldsymbol\pi = \{ \pi_i \}$, где $\pi_i = P (q_1 = S_i)$. Обычно в реальных процессах последовательность состояний является скрытой от наблюдения и остается неизвестной, а известен только выход системы, последовательность наблюдаемых символов $O = O_1 O_2 \ldots O_T$, где каждое наблюдение $O_t$ - символ из $V$, и $T$ - число наблюдений в последовательности. Поэтому такие модели называют $\textit{скрытыми}$ Марковскими моделями (Hidden Markov Models, $\textit{HMM}$).

    Модель $\boldsymbol\lambda = \langle \textbf{A}, \textbf{B} , \boldsymbol\pi \rangle$ с настроенными параметрами может быть использована для генерирования последовательности наблюдений. Для этого случайно, в соответствии с начальными вероятностями $\boldsymbol\pi$ выбирается начальное состояние, затем на каждом шаге вероятность $\textbf{B}$ используется для генерации наблюдаемого символа, а вероятность $\textbf{A}$ - для выбора следующего состояния. Вероятность $P$ генерирования моделью $\lambda$ последовательности состояний $O$: $$ P(O|Q, \lambda) = \prod_{t-1}^T b_{q_t} (O_t) $$ где $Q = q_1 q_2 \ldots q_T$ - последовательность состояний. Предполагается, что наблюдения статистически независимы.

    В распознавании образов скрытые Марковские модели применяются так. Каждому классу $i$ соответствует своя модель $\lambda_i$. Распознаваемый образ (речевой сигнал, изображение и т. д.) представляется в виде последовательности наблюдений $O$. Затем для каждой модели $\lambda_i$ вычисляется вероятность того, что эта последовательность могла быть сгенерирована именно этой моделью. Модель $\lambda_i$, получившая наибольшую вероятность, считается наиболее подходящей, и образ относят к классу $j$.

    В связи с этим появляются несколько вопросов, называемых тремя основными задачами скрытых Марковских моделей.

    $O = O_1 O_2 \ldots O_T$ и настроенную модель $\boldsymbol\lambda = \langle\textbf{A}, \textbf{B}, \boldsymbol\pi\rangle$, как оценить вероятность $P(O|\lambda)$ генерации этой моделью данной последовательности наблюдений? Эта задача называется задачей распознавания.

    1. Имея последовательность наблюдений

    $O = O_1 O_2 \ldots O_T$ и настроенную модель $\boldsymbol\lambda = \langle\textbf{A}, \textbf{B}, \boldsymbol\pi\rangle$, как подобрать последовательность состояний $Q = q_1 q_2 \ldots q_T$, чтобы она была оптимальной (в соответствии с некоторым критерием, аналитически эта задача неразрешима)? Другими словами, это задача объяснения. Она нужна для последующей коррекции параметров модели.

    1. Каким образом корректировать параметры модели

    $\lambda$, для того чтобы максимизировать $P(O|\lambda)$? То есть как сделать так, чтобы модель больше соответствовала своему классу, одним из образов которого является данная последовательность наблюдений (или несколько различных последовательностей)? Это задача обучения.

    Первая задача имеет точное аналитическое решение, называемое процедурой прямого-обратного прохода. Последующие две задачи не имеют точного аналитического решения. Для решения второй задачи используется алгоритм Витерби, для третей - алгоритм Баума - Вельча. Оба этих метода являются разновидностями градиентного спуска и решаются оптимизационными методами.

    Линейная Марковская модель

    Для того чтобы сократить вычисления, в распознавании речи используются линейные модели рис. 6. В таких моделях каждое состояние имеет только одно последующее, так же переход возможен обратно в то же состояние. Такие модели учитывают временн ые характеристики речевого сигнала: определенный порядок следования участков сигнала, их взаимное расположение, возможность локальных растяжений или сжатий. Это позволяет их применять и в распознавании изображений.

    Суть двумерных Марковских моделей заключается в том, что, в отличие от одномерных линейных СММ, они позволяют моделировать искажения изображения и взаимное расположение участков не отдельно по горизонтали или вертикали, а в обоих направлениях одновременно. Для уменьшения вычислительной сложности применяются псевдодвумерные СММ (Pseudo-2D Hidden Markov Models, $\textit{P2D-HMM}$). Такая модель состоит из нескольких линейных вертикальных моделей нижнего уровня и одной линейной горизонтальной модели верхнего уровня, на вход которой поступают выходы моделей нижнего уровня, рис. 7. Каждое

    Псевдодвумерная скрытая Марковская модель

    Извлечение участков-образцов наблюдения

    состояние модели верхнего уровня включает в себя последовательность состояний соответствующей модели нижнего уровня. Модели нижнего уровня не связаны между собой. Изначально в модели верхнего уровня были вертикальными. В последующих работах модели верхнего уровня были сделаны горизонтальными (как это и изображено на рисунке), для того чтобы вертикальные модели нижнего уровня могли учесть тот факт, что глаза могут находиться на разной высоте. Таким образом, псевдодвумерная модель позволяет учесть локальные деформации и взаимное расположение участков изображений. Но в отличие от оптических потоков и других методов сопоставления деформациями, псевдодвумерная модель учитывает характер деформаций, а то, какими именно могут быть возможные деформации, псевдодвумерные СММ усваивают в процессе обучения. Другими словами, участок, соответствующий глазу, никогда не будет сопоставлен, например, участку на месте рта.

    Пример функционирования СММ. Входом СММ являются квадратные участки изображений (рис. 8). Было обнаружено, что участки, извлекаемые с 75{\%} перекрытием друг с другом, дают наилучшую точность распознавания.

    Для СММ важное значение имеет начальная инициализация модели. В качестве начальной инициализации всех моделей используются все изображения из тренировочного набора. Затем модель каждого класса настраивается на свои изображения.

    Недостатком СММ является то, что СММ не обладает различающей способностью, т. е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы и не выделяются ключевые признаки, отличающие один класс от другого. Таким образом, похожие классы могут оказаться слабо различимыми и при увеличении объема базы или использования в более широких условиях СММ может оказаться ненадежными.

    Многослойные нейронные сети.

    Архитектура многослойной нейронной сети (МНС) состоит из последовательно соединенных слоев, где нейрон каждого слоя своими входами связан со всеми нейронами предыдущего слоя, а выходами - следующего. НС с двумя решающими слоями может с любой точностью аппроксимировать любую многомерную функцию. НС с одним решающим слоем способна формировать линейные разделяющие поверхности, что сильно сужает круг задач, ими решаемых, в частности, такая сеть не сможет решить задачу типа "исключающее или". НС с нелинейной функцией активации и двумя решающими слоями позволяет формировать любые выпуклые области в пространстве решений, а с тремя решающими слоями - области любой сложности, в том числе и невыпуклой. При этом МНС не теряет своей обобщающей способности. Обучаются МНС при помощи алгоритма обратного распространения ошибки, являющегося методом градиентного спуска в пространстве весов с целью минимизации суммарной ошибки сети. При этом ошибки (точнее, величины коррекции весов) распространяются в обратном направлении от входов к выходам, сквозь веса, соединяющие нейроны. Простейшее применение однослойной НС (называемой автоассоциативной памятью) заключается в обучении сети восстанавливать подаваемые изображения. Подавая на вход тестовое изображение и вычисляя качество реконструированного изображения, можно оценить, насколько сеть распознала входное изображение. Положительные свойства этого метода заключаются в том, что сеть может восстанавливать искаженные и зашумленные изображения, но для более серьезных целей он не подходит. МНС также используется для непосредственной классификации изображений - на вход подается или само изображение в каком-либо виде, или набор ранее извлеченных ключевых характеристик изображения, на выходе нейрон с максимальной активностью указывает принадлежность к распознанному классу (рис. 9).

    Нейрон с максимальной активностью (здесь первый) указывает принадлежность к распознанному классу. Если эта активность ниже некоторого порога, то считается, что поданный образ не относится ни к одному из известных классов. Процесс обучения устанавливает соответствие подаваемых на вход образов с принадлежностью к определенному классу. Это называется "обучением с учителем". В применении к распознаванию человека по изображению лица такой подход хорош для задач контроля доступа небольшой группы лиц. Он обеспечивает непосредственное сравнение сетью самих образов, но с увеличением числа классов время обучения и работы сети возрастает экспоненциально, и поэтому для таких задач, как поиск похожего человека в большой базе данных, требует извлечения компактного набора ключевых характеристик, на основе которых можно производить поиск.

    В частности, МНС может использоваться для классификации изображений лиц на основе таких характеристик, как расстояния между некоторыми специфическими частями лица (нос, рот, глаза). Также существуют гибридные системы, например объединение с марковской моделью. В классической МНС межслойные нейронные соединения полносвязны, и изображение представлено в виде одномерного вектора, хотя оно двумерно. Архитектура сверточной НС направлена на преодоление этих недостатков. В ней используются локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными подвыборками (spatial subsampling). Сверточная НС (СНС) обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, искажениям. Архитектура СНС состоит из многих слоев, каждый из которых имеет несколько плоскостей, причем нейроны следующего слоя связаны только с небольшим числом нейронов предыдущего слоя из окрестности локальной области (как в зрительной коре человека). Веса в каждой точке одной плоскости одинаковы (сверточные слоя). За сверточным слоем следует слой, уменьшающий его размерность путем локального усреднения. Затем опять сверточный слой, и так далее. Таким образом, достигается иерархическая организация. Более поздние слои извлекают более общие характеристики, меньше зависящие от искажений изображения. Обучается СНС стандартным методом обратного распространения ошибки. Сравнение МНС и СНС показало существенные преимущества последней как по скорости, так и по надежности классификации. Полезным свойством СНС является и то, что характеристики, формируемые на выходах верхних слоев иерархии, могут быть применимы для классификации по методу ближайшего соседа (например, вычисляя евклидово расстояние), причем СНС может успешно извлекать такие характеристики и для образов, отсутствующих в обучающем наборе. Для СНС характерны высокая скорость обучения и работы. Тестирование СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало приблизительно 98{\%} точность распознавания, причем для известных лиц предъявлялись варианты их изображений, отсутствующие в обучающем наборе. Такой результат делает эту архитектуру перспективной для дальнейших разработок в области распознавания изображений пространственных объектов. МНС применяются и для обнаружения объектов определенного типа. Помимо этого, любая обученная МНС в некоторой мере может определять принадлежность образов к "своим" классам, ее можно специально обучить надежному детектированию определенных классов. В этом случае выходными классами будут классы, принадлежащие и не принадлежащие к заданному типу образов.


    Многослойная нейронная сеть для классификации изображений

    Сети Габоровых вейвлетов (GWN).

    Данный метод предназначен для слежения за лицом в реальном времени с помощью Gabor wavelet template (GWT), представляющего собой дискретную линейную комбинацию Габоровых вэйвлетов. Важно отметить, что точность представления лица регулируется числом Габоровых вэйвлетов в GWN, допуская представления множества лиц одним GWT. Такое представление допускает произвольные аффинные преобразования и быструю оценку аффинных параметров методом градиентного спуска. Тем самым, выполняя слежение за лицом, метод определяет и его ориентацию, однако с ограничением на повороты: допускаются, в основном, повороты в плоскости и незначительные пространственные вокруг вертикальной оси.

    Нейронные сети Хопфилда.

    НС Хопфилда (НСХ) является однослойной и полносвязной (связи нейронов на самих себя отсутствуют), ее выходы связаны со входами. В отличие от МНС, НСХ является релаксационной - т. е. будучи установленной в некое начальное положение функционирует до тех пор, пока не достигнет стабильного состояния, которое и будет являться ее выходным значением. НСХ применяются в качестве ассоциативной памяти и для решения оптимизационных задач. В первом случае НСХ обучается без учителя (например, по правилу Хебба), во втором случае веса между нейронами изначально кодируют решаемую задачу. НСХ бывают синхронными, когда одновременно пересчитываются все нейроны, и асинхронными, когда пересчитывается случайно выбранный нейрон. Для исследования динамики функционирования НСХ используются методы Ляпунова. Асинхронная НСХ всегда сходится к устойчивым точкам, а аттракторами синхронной НСХ являются устойчивые стационарные точки и предельные циклы длины два. Таким образом, НСХ из начального состояния сходится к ближайшему локальному минимуму энергии сети, состояние нейронов в котором и будет восстановленным образом для задач распознавания, и решением - для оптимизационных задач. Для поиска глобального минимума применительно к оптимизационным задачам используют стохастические модификации НСХ.

    Применение НСХ в качестве ассоциативной памяти позволяет точно восстанавливать образы, которым сеть обучена, при подаче на вход искаженного образа. При этом сеть "вспомнит" наиболее близкий (в смысле локального минимума энергии) образ, и распознает его. Такое функционирование также можно представить как последовательное применение автоассоциативной памяти. В отличие от автоассоциативной памяти, НСХ идеально точно восстановит образ.

    Хотя разработка систем идентификации по изображениям человеческих лиц ведется уже несколько десятилетий, задача создания эффективного алгоритма идентификации по изображениям человеческих лиц еще далека от завершения.

    Для большинства современных систем автоматического распознавания лиц основной задачей является задача сравнения данного изображения лица с набором изображений лиц из базы данных. Характеристики систем автоматического распознавания лиц в этом случае оцениваются путем определения вероятностей ошибочного отказа в распознавании (для изображения лица, присутствующего в базе, принимается решение как о неопознанном лице) и ошибочного распознавания. В дополнение к вероятностям ошибок для оценки системы автоматического распознавания лиц часто используется оценка устойчивости к возмущению изображений, вызываемая комбинацией со сложными фонами, изменчивостью освещения, изменению прически, и т. д.

    Выбор алгоритма или группы алгоритмов идентификации лиц для создания практических систем автоматического распознавания лиц должен основываться на системе оценок рабочих характеристик конкретной системы, соответствующей ограничениям, связанным с условиями эксплуатации данной конкретной системы, и определяется непосредственно на этапе проектирования.

    Взять кредит, оформить визу, да и просто запустить смартфон последней модели — сделать все это сегодня невозможно без участия алгоритмов распознавания лиц. Они помогают полицейским в расследованиях, музыкантам — на сцене, но понемногу превращаются во всевидящее око, следящее за всеми нашими действиями онлайн и офлайн.

    Роман Фишман Александр Ершов

    Алгоритмы (технологии)

    Определить человека по фото с точки зрения компьютера означает две очень разные задачи: во‑первых, найти лицо на снимке (если оно там есть), во‑вторых, вычленить из изображения те особенности, которые отличают этого человека от других людей из базы данных.

    1. Найти

    Попытки научить компьютер находить лицо на фотографиях проводились еще с начала 1970-х годов. Было испробовано множество подходов, но важнейший прорыв произошел существенно позднее — с созданием в 2001 году Полом Виолой и Майклом Джонсом метода каскадного бустинга, то есть цепочки слабых классификаторов. Хотя сейчас есть и более хитрые алгоритмы, можно поспорить, что и в вашем сотовом телефоне, и в фотоаппарате работает именно старый добрый Виола — Джонс. Все дело в замечательной быстроте и надежности: даже в далеком 2001 году средний компьютер с помощью этого метода мог обрабатывать по 15 снимков в секунду. Сегодня эффективность алгоритма удовлетворяет всем разумным требованиям. Главное, что нужно знать об этом методе, — он устроен удивительно просто. Вы даже не поверите насколько.

    1. Шаг1. Убираем цвет и превращаем изображение в матрицу яркости.
    2. Шаг 2. Накладываем на нее одну из квадратных масок — они называются признаками Хаара. Проходимся с ней по всему изображению, меняя положение и размер.
    3. Шаг 3. Складываем цифровые значения яркости из тех ячеек матрицы, которые попали под белую часть маски, и вычитаем из них те значения, что попали под черную часть. Если хотя бы в одном из случаев разность белых и черных областей оказалась выше определенного порога, берем эту область изображения в дальнейшую работу. Если нет — забываем про нее, здесь лица нет.
    4. Шаг 4. Повторяем с шага 2 уже с новой маской — но только в той области изображения, которая прошла первое испытание.

    Почему это работает? Посмотрите на признак . Почти на всех фотографиях область глаз всегда немного темнее области непосредственно ниже. Посмотрите на признак : светлая область посередине соответствует переносице, расположенной между темными глазами. На первый взгляд черно-белые маски совсем не похожи на лица, но при всей своей примитивности они имеют высокую обобщающую силу.

    Почему так быстро? В описанном алгоритме не отмечен один важный момент. Чтобы вычесть яркость одной части изображения из другой, понадобилось бы складывать яркость каждого пикселя, а их может быть много. Поэтому на самом деле перед наложением маски матрица переводится в интегральное представление: значения в матрице яркости заранее складываются таким образом, чтобы интегральную яркость прямоугольника можно было получить сложением всего четырех чисел.

    Как собрать каскад? Хотя каждый этап наложения маски дает очень большую ошибку (реальная точность ненамного превышает 50%), сила алгоритма — в каскадной организации процесса. Это позволяет быстро выкидывать из анализа области, где лица точно нет, и тратить усилия только на те области, которые могут дать результат. Такой принцип сборки слабых классификаторов в последовательности называется бустингом (подробнее о нем можно прочитать в октябрьском номере «ПМ» или ). Общий принцип такой: даже большие ошибки, будучи перемножены друг на друга, станут невелики.

    2. Упростить

    Найти особенности лица, которые позволили бы идентифицировать его владельца, означает свести реальность к формуле. Речь идет об упрощении, причем весьма радикальном. Например, различных комбинаций пикселей даже на миниатюрном фото 64 x 64 пикселя может быть огромное количество — (2 8) 64 x 64 = 2 32768 штук. При этом для того, чтобы пронумеровать каждого из 7,6 млрд людей на Земле, хватило бы всего 33 бита. Переходя от одной цифры к другой, нужно выкинуть весь посторонний шум, но сохранить важнейшие индивидуальные особенности. Специалисты по статистике, хорошо знакомые с такими задачами, разработали множество инструментов упрощения данных. Например, метод главных компонент, который и заложил основу идентификации лиц. Впрочем, в последнее время сверточные нейросети оставили старые методы далеко позади. Их строение довольно своеобразно, но, по сути, это тоже метод упрощения: его задача — свести конкретное изображение к набору особенностей.


    Накладываем на изображение маску фиксированного размера (правильно она называется ядром свертки), перемножаем яркость каждого пикселя изображения на значения яркости в маске. Находим среднее значение для всех пикселей в «окошке» и записываем его в одну ячейку следующего уровня.


    Сдвигаем маску на фиксированный шаг, снова перемножаем и снова записываем среднее в карту признаков.


    Пройдясь по всему изображению с одной маской, повторяем с другой — получаем новую карту признаков.


    Уменьшаем размер наших карт: берем несколько соседних пикселей (например, квадрат 2x2 или 3x3) и переносим на следующий уровень только одно максимальное значение. То же самое проводим для карт, полученных со всеми другими масками.


    В целях математической гигиены заменяем все отрицательные значения нулями. Повторяем с шага 2 столько раз, сколько мы хотим получить слоев в нейросети.


    Из последней карты признаков собираем не сверточную, а полносвязную нейросеть: превращаем все ячейки последнего уровня в нейроны, которые с определенным весом влияют на нейроны следующего слоя. Последний шаг. В сетях, обученных классифицировать объекты (отличать на фото кошек от собак и пр.), здесь находится выходной слой, то есть список вероятностей обнаружения того или иного ответа. В случае с лицами вместо конкретного ответа мы получаем короткий набор самых важных особенностей лица. Например, в Google FaceNet это 128 абстрактных числовых параметров.

    3. Опознать

    Самый последний этап, собственно идентификация, — самый простой и даже тривиальный шаг. Он сводится к тому, чтобы оценить похожесть полученного списка признаков на те, что уже есть в базе данных. На математическом жаргоне это означает найти в пространстве признаков расстояние от данного вектора до ближайшей области известных лиц. Точно так же можно решить и другую задачу — найти похожих друг на друга людей.

    Почему это работает? Сверточная нейросеть «заточена» на то, чтобы вытаскивать из изображения самые характерные черты, причем делать это автоматически и на разных уровнях абстракции. Если первые уровни обычно реагируют на простые паттерны вроде штриховки, градиента, четких границ и т. д. , то с каждым новым уровнем сложность признаков возрастает. Маски, которые нейросеть примеряет на высоких уровнях, часто действительно напоминают человеческие лица или их фрагменты. Кроме того, в отличие от метода главных компонент, нейросети комбинируют признаки нелинейным (и неожиданным) образом.

    Откуда берутся маски? В отличие от тех масок, что используются в алгоритме Виолы — Джонса, нейросети обходятся без помощи человека и находят маски в процессе обучения. Для этого нужно иметь большую обучающую выборку, в которой имелись бы снимки самых разных лиц на самом разном фоне. Что касается того результирующего набора особенностей, которые выдает нейросеть, то он формируется по методу троек. Тройки — это наборы изображений, в которых первые два представляют собой фотографию одного и того же человека, а третье — снимок другого. Нейросеть учится находить такие признаки, которые максимально сближают первые изображения между собой и при этом исключают третье.

    Чья нейросеть лучше? Идентификация лиц давно уже вышла из академии в большой бизнес. И здесь, как и в любом бизнесе, производители стремятся доказать, что именно их алгоритмы лучше, хотя не всегда приводят данные открытого тестирования. Например, по информации конкурса MegaFace, в настоящее время лучшую точность показывает российский алгоритм deepVo V3 компании «Вокорд» с результатом в 92%. Гугловский FaceNet v8 в этом же конкурсе показывает всего 70%, а DeepFace от Facebook с заявленной точностью в 97% в конкурсе вовсе не участвовал. Интерпретировать такие цифры нужно с осторожностью, но уже сейчас понятно, что лучшие алгоритмы почти достигли человеческой точности распознавания лиц.

    Живой грим (искусство)

    Зимой 2016 года на 58-й ежегодной церемонии вручения наград «Грэмми» Леди Гага исполнила трибьют умершему незадолго до того Дэвиду Боуи. Во время выступления по ее лицу растеклась живая лава, оставив на лбу и щеке узнаваемый всеми поклонниками Боуи знак — оранжевую молнию. Эффект движущегося грима создавала видеопроекция: компьютер отслеживал движения певицы в режиме реального времени и проецировал на лицо картины, учитывая его форму и положение. В Сети легко найти видеоролик, на котором заметно, что проекция еще несовершенна и при резких движениях слегка запаздывает.


    Технологию видеомаппинга лиц Omote Нобумичи Асаи развивает с 2014 года и уже с 2015-го активно демонстрирует по всему миру, собрав приличный список наград. Основанная им компания WOW Inc. стала партнером Intel и получила хороший стимул для развития, а сотрудничество с Ишикавой Ватанабе из Токийского университета позволило ускорить проекцию. Впрочем, основное происходит в компьютере, и похожие решения используют многие разработчики приложений, позволяющих накладывать на лицо маски, будь то шлем солдата Империи или грим «под Дэвида Боуи».

    Александр Ханин, основатель и генеральный директор VisionLabs

    «Подобной системе не нужен мощный компьютер, наложение масок может производиться даже на мобильных устройствах. Система способна работать прямо на смартфоне, без отправки данных в облако или на сервер».

    «Эта задача называется трекингом точек на лице. Есть много подобных решений и в открытом доступе, но профессиональные проекты отличаются скоростью и фотореалистичностью, — рассказал нам глава компании VisionLabs Александр Ханин. — Самое сложное при этом состоит в определении положения точек с учетом мимики и индивидуальной формы лица или в экстремальных условиях: при сильных поворотах головы, недостаточной освещенности и большой засветке». Чтобы научить систему находить точки, нейронную сеть обучают — сначала вручную, скрупулезно размечая фотографию за фотографией. «На входе это картинка, а на выходе — размеченный набор точек, — поясняет Александр. — Дальше уже запускается детектор, определяется лицо, строится его трехмерная модель, на которую накладывается маска. Нанесение маркеров осуществляется на каждый кадр потока в режиме реального времени».


    Примерно так и работает изобретение Нобумичи Асаи. Предварительно японский инженер сканирует головы своих моделей, получая точные трехмерные прототипы и готовя видеоряд с учетом формы лица. Задачу облегчают и небольшие маркеры-отражатели, которые клеят на исполнителя перед выходом на сцену. Пять инфракрасных камер следят за их движениями, передавая данные трекинга на компьютер. Дальше все происходит так, как нам рассказали в VisionLabs: лицо детектируется, строится трехмерная модель, и в дело вступает проектор Ишикавы Ватанабе.

    Устройство DynaFlash было представлено им в 2015 году: это высокоскоростной проектор, способный отслеживать и компенсировать движения плоскости, на которой отображается картинка. Экран можно наклонить, но изображение не исказится и будет транслироваться с частотой до тысячи 8-битных кадров в секунду: запаздывание не превышает незаметных глазу трех миллисекунд. Для Асаи такой проектор оказался находкой, живой грим стал работать действительно в режиме реального времени. На ролике, записанном в 2017 году для популярного в Японии дуэта Inori, отставания уже совсем не видно. Лица танцовщиц превращаются то в живые черепа, то в плачущие маски. Это смотрится свежо и привлекает внимание — но технология уже быстро входит в моду. Скоро бабочка, севшая на щеку ведущей прогноза погоды, или исполнители, каждый раз на сцене меняющие внешность, наверняка станут самым обычным делом.


    Фейс-хакинг (активизм)

    Механика учит, что каждое действие создает противодействие, и быстрое развитие систем наблюдения и идентификации личности не исключение. Сегодня нейросети позволяют сопоставить случайную смазанную фотографию с улицы со снимками, загруженными в аккаунты социальных сетей и за секунды выяснить личность прохожего. В то же время художники, активисты и специалисты по машинному зрению создают средства, способные вернуть людям приватность, личное пространство, которое сокращается с такой головокружительной скоростью.

    Помешать идентификации можно на разных этапах работы алгоритмов. Как правило, атакам подвергаются первые шаги процесса распознавания — обнаружение фигур и лиц на изображении. Как военный камуфляж обманывает наше зрение, скрывая объект, нарушая его геометрические пропорции и силуэт, так и машинное зрение стараются запутать цветными контрастными пятнами, которые искажают важные для него параметры: овал лица, расположение глаз, рта и т. д. По счастью, компьютерное зрение пока не столь совершенно, как наше, что оставляет большую свободу в выборе расцветок и форм такого «камуфляжа».


    Розовые и фиолетовые, желтые и синие тона доминируют в линейке одежды HyperFace, первые образцы которой дизайнер Адам Харви и стартап Hyphen Labs представили в январе 2017 года. Пиксельные паттерны предоставляют машинному зрению идеальную — с ее точки зрения — картинку человеческого лица, на которую компьютер ловится, как на ложную цель. Несколько месяцев спустя московский программист Григорий Бакунов и его коллеги даже разработали специальное приложение, которое генерирует варианты макияжа, мешающего работе систем идентификации. И хотя авторы, подумав, решили не выкладывать программу в открытый доступ, тот же Адам Харви предлагает несколько готовых вариантов.


    Человек в маске или со странным гримом на лице, может, и будет незаметен для компьютерных систем, но другие люди наверняка обратят на него внимание. Однако появляются способы сделать и наоборот. Ведь с точки зрения нейросети изображение не содержит образов в обычном для нас понимании; для нее картинка — это набор чисел и коэффициентов. Поэтому совершенно различные предметы могут выглядеть для нее чем-то вполне сходным. Зная эти нюансы работы ИИ, можно вести более тонкую атаку и подправлять изображение лишь слегка — так, что человеку перемены будут почти незаметны, зато машинное зрение обманется полностью. В ноябре 2017 года исследователи показали, как небольшие изменения в окраске черепахи или бейсбольного мяча заставляют систему Google InceptionV3 уверенно видеть вместо них ружье или чашку эспрессо. А Махмуд Шариф и его коллеги из Университета Карнеги — Меллон спроектировали пятнистый узор для оправы очков: на восприятие лица окружающими он почти не влияет, а вот компьютерная идентификация средствами Face++ уверенно путает его с лицом человека, «под которого» спроектирован паттерн на оправе.

    В NtechLab в мае этого года вложился фонд Impulse, связанный с Романом Абрамовичем. А в VisionLabs инвестировал в 2016 г. венчурный фонд АФК «Система» Sistema VC.

    По данным исследовательской компании MarketsandMarkets, которые приводит Bloomberg, к 2021 г. объем рынка распознавания лиц достигнет $6,84 млрд. В 2016 г. он был вдвое меньше – $3,35 млрд.

    Мошенники не пройдут

    Григорий Бакунов, занимающий в «Яндексе» должность директора по распространению технологий, создал сервис, проектирующий уникальный случайный макияж, позволяющий избежать идентификации. Об этом он сообщал в своем telegram-канале. Проект команды основывался на алгоритме, который на основе оригинальной фотографии подбирал новый образ по принципу «антисходства». Затем на основе полученного результата визажист составлял план макияжа, после чего он наносился на лицо модели. Но затем разработчик решил свернуть проект. Объяснил он этот шаг соображениями совести: «Слишком уж велик шанс использовать продукт не для добра, а вовсе с другими целями». Алгоритмы, которые тестировали этот макияж, уже устарели, а современные алгоритмы распознают лицо даже с таким макияжем, уверяет представитель VisionLabs.

    Самое масштабное внедрение технологии распознавания лиц среди российских банков произошло у «Почта банка» (создан ВТБ и «Почтой России»), рассказывает генеральный директор компании VisionLabs Александр Ханин. Сейчас 50 000 рабочих мест сотрудников банка оборудованы специальными камерами, которые умеют распознавать лицо, рассказывает советник предправления «Почта банка» Павел Гурин. В банке есть три базы изображений – фотографии сотрудников, клиентов банка и мошенников. Каждая фотография хранится в зашифрованном виде, как набор символов. Перед началом работы с клиентами сотрудник должен войти в систему банка. Для подтверждения личности он не только вводит пароль, но и фотографирует себя. После этого специальная программа преобразует фотографию в код и сравнивает его с кодом, хранящимся в базе. Если они совпадают, сотрудник начинает работу. Систему распознавания лиц используют и для внутренней аттестации, чтобы один не проходил тесты за другого и чтобы никто не мог зайти под чужим паролем и провести незаконную транзакцию.

    Когда приходит клиент, камера верифицирует его аналогичным образом. Кроме того, программное обеспечение сравнивает изображение клиента с базой мошенников. Она пополняется и собственными усилиями банка, и с помощью межбанковского взаимодействия.

    Деньги по фотографии

    У «Тинькофф банка» нет отделений. Но по закону представитель банка обязан провести личную встречу с клиентом, поэтому работники «Тинькофф» фотографируют его с помощью специального мобильного приложения, которое преобразует изображение в обезличенный код, рассказывает директор по коммуникациям «Тинькофф банка» Дарья Ермолина. Дальше система сравнивает код с базой данных. Это позволяет убедиться, что перед представителем именно тот человек, который подавал документы, и что он не мошенник, а также сократить время обработки заявки.

    «Открытие» внедрило денежные переводы по фотографии с помощью технологии распознавания лиц, рассказал директор по инновациям банка «Открытие» Алексей Благирев. Для этого достаточно сфотографировать получателя в мобильном приложении или загрузить его фотографию – система сама найдет данные человека в базе, чтобы отправить ему деньги.

    Распознавание в цифрах

    1,5 млрд руб.
    общая сумма кредитов, которую «Почта банк» не выдал мошенникам благодаря использованию технологии распознавания лиц
    70%
    правонарушений (включая нарушения на дорогах) раскрывается с помощью систем видеонаблюдения в Москве
    1 млрд фотографий из базы способен в режиме реального времени распознавать алгоритм российского стартапа NtechLab
    117 млн человек – их фотографии есть в полицейской базе распознавания лиц США, это примерно половина взрослых американцев

    Сбербанк в июле установил в Москве тестовый банкомат, где для совершения операций со счетом нужно только сфотографироваться, а не прикладывать пластиковую карту, рассказал представитель банка. Эксперимент продлится до конца 2017 г., после чего банк решит, внедрять ли технологию дальше. «Тинькофф банк» также сообщил о тестировании идентификации клиентов в банках.

    Сбербанк использует технологию распознавания лиц при выдаче кредитов с 2014 г.

    Прививка от очередей

    В ритейле распознавание лиц используется, чтобы мотивировать покупателей, говорит генеральный директор компании NtechLab Михаил Иванов. Если человека узнают на входе в магазин и видят его историю покупок, то сотрудники магазина лучше знают, что ему предложить, объясняет Иванов. Например, если он покупал в магазине электроники телевизор, сотрудник его узнает, обратится по имени и предложит приобрести новый пульт.

    В «Дикси» тестировали распознавание лиц клиентов для определения гендерного состава клиентов и для таргетированной рекламы в кассовой зоне и торговом зале, говорит директор IT-департамента ГК «Дикси» Владимир Муравьев. В X5 Retail Group технологию распознавания лиц используют пока в тестовом режиме – чтобы уменьшать длину очередей на кассах и для оптимизации торгового пространства. Система распознавания лиц может определить, сколько человек стоит в очереди, и отправить сигнал о том, что необходимо открыть дополнительную кассу. Видеоаналитика помогает проследить, где в магазине проходит больше людей, на что они обращают внимание, чтобы потом правильно расположить товары и промоматериалы.

    Зона повышенной безопасности

    Самый развитой мировой рынок технологии распознавания лиц – в сфере безопасности, говорит Иванов. В США лицевая биометрия широко внедрена на государственном уровне и используется сотрудниками полиции – в том числе и для проверки при выдаче водительских прав, рассказывает он. Кроме того, США и Европа используют идентификацию по лицу на паспортном контроле при пересечении границы.

    Российские компании также предлагают использовать технологию распознавания лиц в сфере безопасности. Так, среди основных клиентов отечественной компании «Центр речевых технологий» – крупные стадионы. Когда болельщик приходит на стадион и прикладывает к валидатору именной абонемент, камера над валидатором подтверждает, что войти на стадион пытается именно владелец абонемента. Система не позволяет войти на спортивный объект людям из черного списка фанатов. Также «Центр речевых технологий» внедрил технологию распознавания лиц в аэропорту Южно-Сахалинска: когда туда заходят люди, которые находятся в розыске, система отправляет уведомление полиции и службе безопасности аэропорта.

    Компания Magic Ашота Габрелянова запустила игру, в которой для управления используется мимика пользователя, рассказал сам Габрелянов на своей странице в Facebook. В первой версии игры пользователю нужно уничтожать злых персонажей четырех разных цветов с помощью оружия, которое управляется мимикой – она распознается с помощью нейросетей. Например, для использования желтой пушки нужно изобразить радость, для красной – сделать рассерженное лицо.

    NtechLab также разрабатывает продукт в области безопасности, который нужен госструктурам и спецслужбам: это софт, который находит людей по доступным базам, работает с их документами.

    Большое будущее

    В ближайшие годы технологии анализа лиц будут развиваться в двух направлениях, считает Ханин. Первое – переход к пониманию поведения человека: сейчас уже мало понимать, кто изображен на фотографии, важно знать, как человек себя ведет в разных ситуациях, например на собеседовании или при посадке на рейс. Второе направление – это встраивание чипов с компьютерным зрением в устройства, чтобы они смогли не только идентифицировать пользователя, но и проанализировать потоковое видео. Например, показать, когда конкретный человек заходил в помещение, или построить 3D-аватар прямо в телефоне.

    Благодаря технологии распознавания многие удивительные вещи станут реальными: человек только посмотрит на чайник – и он автоматически нагреет воду, говорит Иванов.


    © 2024
    colybel.ru - О груди. Заболевания груди, пластическая хирургия, увеличение груди