Чем зрение человека отличается от зрения машины

Паскаль Фуа

Инженер, доктор философских наук. Был компьютерным ученым в SRI International и INRIA Sophia-Antipolis. Руководит лабораторией компьютерного зрения Политехнической школы в Швейцарии, учит машины видеть и узнавать. Его исследования спонсирует Швейцарский национальный научный фонд, CTI, Евросоюз и промышленные компании.

— Можете объяснить разницу между машинным зрением и человеческим?

— В этом и заключается главный вопрос: что значит видеть? Ответ никому не известен. Это по-прежнему большая загадка, и то, чем мы занимаемся, может в итоге помочь лучше понять, как работает человеческий разум. Алгоритмы машинного зрения — это попытки разобраться, что происходит, когда вы смотрите на окружающий мир или на человека и пытаетесь понять, кто или что перед вами.

— Как вы это делаете? Проводите эксперименты с людьми?

— Я — нет, этим занимаются нейропсихологи. Они изучают структуру и функции мозга, в то время как мы занимаемся противоположными вещами. Мы разрабатываем алгоритм, который имитирует некоторые функции мозга, но совсем по-другому функционирует.

Механизм глубокого обучения — подходящий пример: мы не очень понимаем, как это работает, но оно работает.

Существует легенда, что подобные исследования начались в 1965 году, когда один профессор Массачусетского технологического института задал студенту решить проблему машинного зрения в качестве летнего проекта. В итоге лето затянулось — сейчас нам удалось решить некоторые проблемы, но, разумеется, не все.

Появление машинного обучения стало решающим моментом. Кажется, что машины работают по волшебству, но это не так. Представьте, что у вас есть база данных, в которой хранятся миллионы фотографий улиц Москвы и их точные координаты. Теперь я даю вам новое фото и прошу вас угадать, где я нахожусь. Вы можете сравнить новое изображение с каждым старым из вашей базы, найти похожее и понять, что, например, я в данный момент нахожусь близко к месту со снимков. Но если идти таким путем, то поиск будет очень медленным и затратным с точки зрения формирования огромной базы данных. Машинное обучение в целом и глубокое обучение в частности позволяют сделать это гораздо быстрее.

Подробности по теме

Как камеры следят за нами на улицах российских городов. И как их обмануть

— Какие-нибудь новые профессии возникнут в ближайшем будущем благодаря развитию технологий, в том числе компьютерному зрению?

— Это самый сложный из ваших вопросов. Разумеется, прямо сейчас нам нужно больше программистов. Недавно я посещал компанию Vision Out и видел там пятьдесят молодых людей — девушки тоже были, но преимущественно все же парни, — они писали код. В прошлом новые технологии всегда создавали новые рабочие места. Но вообще из меня плохой предсказатель. В 1996 году, когда появилась мировая паутина, мне казалось, что в этом изобретении нет ничего нового, потому что мы уже использовали интернет на протяжении 20 лет. Я сильно ошибался!

— Нам стоит бояться будущего, такого технологичного, с внедрением AR и VR?

Не думаю, что будущего нужно бояться — его стоит принять

— Оно высокотехнологично, мобильно, удобно. Сегодня я читал газету со своего айфона, и когда мне в руки попалась настоящая газета, возникло странное ощущение. Непривычно держать газету в руках, не очень удобно. Да, в чем-то это приятно, можно ощутить бумагу, поностальгировать, но электронный формат комфортнее. К тому же так ее прочитает больше людей. Но в будущем все относительно. И это касается не только газет.

— Какой самый главный вопрос стоит перед разработчиками машинного зрения прямо сейчас?

— Как работает мозг. Что бы ни умели машины, мозг работает лучше любого известного алгоритма. Также есть несколько вопросов более практического характера. Во-первых, мы все используем глубокое обучение и видим, что оно работает, но не понимаем, как. С интеллектуальной точки зрения это нас не устраивает — это проблема, которую необходимо решить. Во-вторых, мы должны понять, как сочетать новые разработки со старыми алгоритмами, у которых были свои преимущества. В конце концов, достигнув определенных результатов, мы должны понимать, насколько мы в них уверены. Прежде чем мы станем использовать алгоритмы глубокого обучения, чтобы управлять самолетом, мы должны гарантировать с почти стопроцентной уверенностью, что результат будет верным. Пока мы не можем этого сделать.

Подробности по теме

Весь мир — deepfakes: как фейковое порно делает из нас медианигилистов

— У вас есть профессиональная мечта?

— Да, понять, как устроен мозг человека.

— Насколько это возможно? Вы станете свидетелем подобного открытия?

— Скорее всего, нет. Думаю, это так и останется мечтой — на самом деле, немного пугающей. Но это захватывающая задача, и я буду рад посвятить ей всю жизнь.

— Возможно, следующие поколения смогут найти ответ. Или лучше, чтобы это продолжало оставаться секретом?

— Давайте поговорим об этом еще раз, через пару столетий.

Какой вопрос о машинном интеллекте главный прямо сейчас? Отвечает компьютерный ученый