Пользователи твиттера заметили интересную особенность автоматической обрезки изображений: если на картинке есть лицо темнокожего и светлокожего человека, то алгоритм с большей вероятностью оставит на превью последнего. Из‑за этого на выходных в соцсети разразился скандал, мы теперь объясняем, почему на самом деле алгоритм предпочитает светлокожих.

Все началось с другого вопроса. Аспирант Университета Виктории Колин Мэдленд рассказал о проблеме, с которой столкнулся его преподаватель: Zoom не распознавал его лицо на виртуальном фоне. Студенты посоветовали ему более светлое помещение и однотонный фон. Когда Мэдленд созвонился с преподавателем по видеосвязи, он понял, в чем было дело.

«Оказывается, в Zoom отвратительный алгоритм распознавания лиц, который стирает лица темнокожих, — написал он, — а еще считает лицом бледный глобус на заднем плане».

В качестве иллюстрации Мэдленд прикрепил к твиту горизонтальный коллаж из двух картинок: с ним и с его учителем. В мобильной версии твиттера сам обрезал коллаж и оставил на превью только Мэдленда. Он удивился, что алгоритм всегда оставлял на превью только правую часть фотографии, на которой был он сам. Но потом он обнаружил, что твиттер всегда будет оставлять на превью его, а не темнокожего учителя, вообще в любом случае. Алгоритм посчитали расистским.

Почему алгоритм твиттера оказался расистским

Глава департамента Twitter по работе с большими данными Дантли Дэвис признал проблему и сообщил, что команда разбирается в вопросе. Алгоритм обрезки фотографий не использует распознавание лиц, пояснил Дэвис. Два года назад команда Twitter уже рассказывала, как именно работает эта система. Тогда разработчики отказалась от системы распознавания лиц, потому что часто на фотографии просто нет лица или оно не является чем‑то важным.

«Лучший способ обрезки — фокусироваться на заметных местах изображения, — рассказывалось в посте. — Скорее всего, именно на такое место человек обратит внимание, когда будет бегло смотреть на картинку».

В качестве одного из ориентиров для алгоритма используются места с высокой контрастностью. Дэвис провел несколько тестов и выяснил, что алгоритм предпочитал фотографию Мэдленда из‑за его бороды, которая создавала контраст со светлой кожей. Когда он замазал бороду в фотошопе, то алгоритм изменил решение и выбрал лицо темнокожего преподавателя.

Пока разработчики не нашли явных доказательств того, что алгоритм всегда предпочитает светлокожего человека темнокожему, заявила специалистка по связям Лиз Келли, но тесты продолжатся. Компания планирует выложить код алгоритма в открытый доступ, чтобы его смогли проверить и другие разработчики.

Во всех твитах ниже алгоритм уже обрезал картинки. Чтобы увидеть всю картину, придется перейти в сам твит и посмотреть изображения целиком.

Какие еще есть доказательства алгоритмического расизма

Похоже алгоритм действительно делает выбор не на основе оттенка кожи. Другие пользователи тоже провели несколько тестов и выяснили, что часто он действительно оставляет на превью светлокожего мужчину. Так было с фотографиями сенатора Митча Макконнелла и бывшего президента Барака Обамы. Но в другом тесте алгоритм вместо Макконнелла выбрал конгрессвумен Александрию Окасио-Кортес. В еще одном тесте алгоритм выбрал Барака Обаму, после того как ему прифотошопили очки. Наконец в одном из тестов алгоритм сначала предпочел президента Азербайджана Ильхама Алиева в красном галстуке, а потом — премьера-министра Армении Николу Пашиняна, тоже в красном галстуке.

Подробности по теме
Мой смартфон — фашист: как нейросети подцепили от нас сексизм и ксенофобию
Мой смартфон — фашист: как нейросети подцепили от нас сексизм и ксенофобию

Почему алгоритмы становятся расистскими

Это не первый случай, когда машинное обучение предвзято относилось к темнокожим людям. В прошлом году эпидемиолог Милена Джанфранческо обнаружила, что алгоритм, которым пользуются американские больницы и страховые компании, регулярно дискриминирует темнокожих людей. Он присваивал им более низкий рейтинг риска для здоровья, чем светлокожим с теми же симптомами.

Ошибка произошла из‑за данных, на которых обучили алгоритм. Он ориентировался на средние расходы на здоровье за год, а его логика была такая: чем выше расходы, тем больше у человека проблем со здоровьем. Тем не менее низкие расходы у темнокожих, считают исследователи, были связаны с другими проблемами — расизмом медицинского персонала и общим недоверием к здравоохранению. В итоге алгоритм направил за дополнительной помощью в два раза меньше темнокожих людей, чем мог бы.

Алгоритмы компьютерного зрения чаще путают темнокожих людей друг с другом. Например, системы компании Idemia, которые используются полицией Австралии, Франции и США, ошибаются при распознавании лиц светлокожих женщин один раз из 10 тыс., а при распознавании лиц темнокожих женщин — в 10 раз чаще. От такой ошибки за решетку чуть не отправился темнокожий американец Роберт Уилльямс, которого полицейская система приняла за грабителя на видеозаписи из магазина.

Возможно, в случае с алгоритмом твиттера имел значение человеческий фактор. Разработчики рассказывали, что ориентировались на данные тестов, во время которых фиксировали, на какие именно места смотрели испытуемые. Руководительница направления искусственного интеллекта в Nvidia Анима Анандкумар считает, что на результат могло повлиять происхождение испытуемых.

«Отслеживание взгляда гетеросексуальных мужчин на фотографиях женщин программирует объективацию и сексуализацию. Никто не спросил, чьими именно глазами оценивалась эта заметность».
Анима Анандкумар
Руководительница направления искусственного интеллекта в Nvidia

Как скандал превратился в мем

В итоге скандал с алгоритмом твиттера превратился в локальный мем. Пользователи загружают коллажи с двумя картинками и предлагают нейросети выбрать одну из них. Таким образом, выбранное алгоритмом изображение признается чем‑то более важным и значимым.