Технология компьютерного зрения очень эффективна для беспилотных автомобилей. Но существенный прорыв в области безопасности беспилотников будет достигнут тогда, когда умные машины станут передвигаться по умным дорогам. В каких еще сферах применяется компьютерное зрение, может ли технология смоделировать аналоги зрения животных, а также чего ждать от технологии в ближайшие время, рассказал в интервью технологический евангелист компании Microsoft, спикер Artificial Intelligence Conference 2018 Дмитрий Сошников.

Интервьюер: AI Conference (AI)
Респондент: Дмитрий Сошников (Д. С.)

AI: На днях в Аризоне беспилотник Uber сбил женщину насмерть. По вашему мнению, почему искусственный интеллект не смог избежать аварии и как инцидент скажется на будущем беспилотных машин?

Д. С.: Это очень неприятный инцидент, который, безусловно, повлияет на темпы внедрения беспилотного транспорта в нашу жизнь, заставит более тщательно проработать вопросы безопасности, как с технической стороны, так и с юридической. Почему именно такое произошло – должны судить профессионалы, которым ещё предстоит разобраться в случившемся. Некоторые соображения приводит на своей странице в Facebook Ольга Ускова, основатель компании Cognitive Technologies.

Я не думаю, что инцидент приведет к прекращению разработок в сфере беспилотного транспорта, поскольку они очень выгодны экономически. Кроме того, есть основания полагать, что компьютер все-таки будет водить более безопасно в сравнении с человеком – ведь уже сейчас он на хуже человека справляется с распознаванием изображений и распознаванием речи.


AI: Произошедшее ДТП затронуло и в какой-то мере философскую проблему. Если авария неизбежна, то кого должен защитить автомобиль – водителя или пешехода? Как разработчикам искусственного интеллекта решать подобные моральные дилеммы?

Д. С.: На самом деле подобные проблемы должны решать не разработчики, а целое сообщество специалистов разного профиля. Проблема в данном случае скорее не техническая, а именно философская или моральная: как сделать выбор в определённой ситуации. Например, есть попытки возложить такой моральный выбор на человечество в целом, собрав с помощью краудсорсинга «усреднённое» мнение людей: так, например, поступают исследователи из MIT на платформе Moral Machine. Это сайт, на котором всем желающим предлагается принять решение в нескольких конкретных ситуациях, связанных с таким моральным выбором – и на основании этих решений можно будет затем формировать некоторый набор правил поведения. Можно сказать, что это следующая, более системная, попытка сформулировать набор правил после трех законов робототехники Азимова.

Безусловно, проблема является также и юридической, поскольку необходимо определить, кто несёт ответственность за причинение ущерба имуществу или здоровью. Какую-то работу в этой области предполагается проводить в рамках направления AutoNet Национальной технологической инициативы.

С точки зрения технологий, думаю, существенный прорыв в области безопасности будет достигнут тогда, когда умные машины станут передвигаться по умным дорогам, при этом «договариваясь» друг с другом, то есть когда инфраструктура выйдет на новый уровень и тоже станет интеллектуальной. В этом случае только нерациональное поведение человека сможет быть причиной аварий.


AI: Компьютерное зрение уже довольно широко внедряют для распознавания лиц. Технология уже позволяет обнаружить утечку в изоляции крыши или вести воздушную топографическую съемку. А может ли КЗ смоделировать аналоги зрения, например, животных, и создать приложение, дающее возможность увидеть мир глазами других существ? Что для этого нужно?

Д. С.: В некотором роде такие приложения уже существуют, и они основаны на исследованиях биологов, которые изучают зрительные механизмы других животных. Эти исследования оказываются чрезвычайно полезными для задач ИИ – например, на основе понимания принципов восприятия изображений животными построены методы компьютерного зрения. Оказывается, изображение у нас в голове возникает не сразу, а проходя некоторые иерархические ступени анализа – начиная от простейших фильтров, выявляющих какие-то штрихи или перепады яркости на изображении, постепенно картина собирается из этих составных частей. Аналогичным образом работают свёрточные нейронные сети, которые сейчас используются повсеместно для анализа изображений.

Надо также отметить, что мы можем увидеть что-то похожее на изображение, которое видит, скажем, муха, но мы не можем представить себе, как она его воспринимает, как это изображение обрабатывается мозгом. Задача «почувствовать себя мухой» в полном смысле этого слова пока ещё не решена – мы слишком мало знаем о мозге.


AI: В каких сферах технологии компьютерного зрения сегодня применяются наиболее эффективно? Где вы видите перспективы наиболее серьезных прорывов с точки зрения внедрения?

Д. С.: Сейчас можно выделить несколько областей, где компьютерное зрение оказывается очень эффективным:

♦ Беспилотные автомобили, о которых мы уже говорили, или другие средства передвижения. Например, последние модели квадрокоптеров DJI умеют следовать за человеком, огибать препятствия, распознавать лица и жесты. Это практически беспилотный робот, ведущий съемку за нас.

♦ Маркетинг, где обработка изображений позволяет оцифровать как поведение потребителей (за счет анализа лиц/эмоций), так и наличие товаров на полках магазина и их движение. Сюда же можно отнести различные системы анализа взаимодействий с потребителем: например, стартап heedbook отслеживает эмоции и диалог посетителя банка с сотрудником и формирует статистику по удовлетворённости, отклонению беседы от сценария и т.д.

♦ Каталогизация изображений и статистический анализ изображений. Поскольку всё больше контента в соцсетях подаётся в форме картинок или видео, для эффективного анализа необходимо такой контент переводить в более удобное, символьное представление. С этим хорошо справляются системы компьютерного зрения.

♦ Безопасность, когда распознавание лиц позволяет отследить передвижение человека или ограничить доступ к объекту по фотографии.

♦ Производство, где необходимо распознать движение товара по конвейеру, посчитать количество товара, оценить качество.

Прорыв, скорее всего, будет состоять в том, что начнется массовое внедрение таких технологий на практике. В своём докладе я покажу, что начать внедрение очень просто, а экономический эффект в некоторых случаях может быть огромный. Внедряя даже простые технологии на том технологическом уровне, который легко доступен сейчас, можно достигать прорыва и цифровой трансформации.


AI: На Artificial Intelligence Conference 2018 вы расскажете о решениях задач компьютерного зрения на базе технологий Microsoft. Для чего уже применяется технология в продуктах компании?

Д. С.: Основное направление Microsoft – это демократизация технологий ИИ, предоставление сервисов, на базе которых партнёры могут делать свои решения. Некоторые из этих решений я описал в ответе на предыдущий вопрос, ещё о каких-то расскажу в докладе.

Конечно, в своих продуктах мы тоже массово используем технологии ИИ. Не все знают об этом, но, например, при вставке картинки в PowerPoint автоматически генерируется подпись, описывающая содержимое картинки. Технология Windows Hello позволяет безопасно входить в компьютер с помощью лица. И это только первые пришедшие в голову технологии…


AI: Какие задачи и проблемы предстоит решить разработчикам-исследователям систем компьютерного зрения и чего нам ждать от технологии в ближайшие два-три-пять лет?

Д. С.: Основное, что ограничивает системы ИИ сейчас – это неспособность состыковать мыслительные процессы (то есть процесс рассуждений, основанный на каких-то явных понятиях) с низкоуровневыми вычислительными процессами, происходящими в нейросетях. Например, нейросеть путём вычислений способна научиться распознавать вероятность наличия велосипеда на изображении, но она неспособна формировать знания более высокого уровня. Водитель, сидящий за рулем, частично сформировал свои навыки вождения на практике (методом проб и ошибок), а частично учился в автошколе на примерах, правилах. Например, человек знает, что в жаркий день дорога, скорее всего, не может быть мокрой, и с уверенностью заключит, что перед ним мираж, а не мокрое покрытие. Все знания в голове объединяются и ведут к эффективному решению задачи. В то время как нейросеть на текущий момент может лишь учиться на примерах, как-то вмешаться и повлиять на её поведение невозможно.

Думаю, в ближайшие годы очень важной будет эта стыковка явного представления знаний человека и машинного обучения. В каком-то виде это делается и сейчас, но пока не очень эффективно.


Узнать детальнее о решениях задач компьютерного зрения на базе технологий Microsoft, а также задать дополнительные вопросы Дмитрию Сошникову можно будет 19 апреля на Artificial Intelligence Conference 2018.

Зарегистрироваться ►►►