Как по лайкам определить сексуальную ориентацию, цвет кожи и беременность

25 апреля 2017 в 17:44
Фотография: ISTOCK
Наш цифровой след в сети — будь то покупки, переписки в чатах, запросы в поисковиках или лайки в инстаграме — говорит о нас больше, чем нам кажется. «Афиша Daily» разобралась, как работает психометрия в эпоху социальных сетей.

Что такое психометрия

Примерные вопросы стандартного психометрического теста

Психометрия (она же психометрика) — это изучение психологических изменений личности: способностей, взглядов и качеств. Эта дисциплина появилась в 1980-х, когда исследователи разработали «большую пятерку» — модель личности человека, состоящую из пяти общих независимых черт: экстраверсии, доброжелательности, добросовестности, нейротизма (эмоциональной нестабильности) и открытости новому опыту. Считается, что данных об этих чертах достаточно для построения полного портрета личности. Измеряют эти характеристики с помощью специальных тестов, самый популярный из которых — опросник NEO PI-R (Revised NEO Personality Inventory), состоящий из 240 пунктов. Но есть и множество других прикладных тестов. Например, в Израиле существует единый психометрический экзамен для поступающих в вузы. Он официально рассматривается Израильским центром экзаменов и оценок как «средство прогнозирования шансов на успех в занятиях в высших учебных заведениях». Конечно, результаты таких тестов не всегда точны, но в целом они обрисовывают характеристику личности крупными мазками.

Последнее время большие и сложные опросники отходят на второй план, так как люди и без них теперь охотно делятся информацией о себе — в соцсетях. Благодаря большим данным психометрия выходит на новый уровень.

Психометрия и большие данные

Один из опросников NEO PI-R

Как огромный массив данных в виде кучи лайков, геотегов, разрозненных статусов и комментариев можно использовать для чего-то более сложного, чем, скажем, контекстная реклама? Эту задачу решают разные специалисты, в том числе человек по имени Михал Косински. После поступления на PhD-программу в Кембриджский психометрический центр в 2008 году он включился в разработку фейсбук-приложения My Personality, которое создал другой аспирант Кэмбриджа Дэвид Стиллуэлл. По сути, оно представляло собой интерактивный тест популярного формата вроде «какой у тебя характер». Пользователям предлагалось заполнить опросник, и в итоге приложение выдавало психологический портрет отвечавшего. Перед тем как пройти тест, пользователи соглашались предоставить приложению информацию из своего профиля в соцсети и доступ к тем лайкам, которые они ставят (на тот момент соцсеть могла обеспечить такой доступ). Тогда фейсбук был далеко не так популярен, как сейчас, и Стиллуэлл и Косински полагали, что тесты заполнит не больше нескольких сотен человек. Но приложение стало вирусным, и довольно скоро в руках у Стиллуэлла и Косински оказались результаты психометрических опросов и фейсбук-профили нескольких миллионов пользователей. Получив такой массив данных, Косински с командой стали сопоставлять результаты теста «большой пятерки» черт личности пользователей с информацией из их профилей в фейсбуке.

В 2012 году исследователям удалось доказать, что на базе 68 лайков можно определить цвет кожи пользователя (с точностью 95%), сексуальную ориентацию (с точностью 88%) и то, голосует ли он за республиканцев или демократов (с точностью 85%). Также Косински и его команда научились по лайкам определять, к какой религии принадлежит пользователь, курит ли, употребляет ли алкоголь или наркотики. После публикации исследования Косински позвонили из Facebook, чтобы сказать, что подают на него в суд, и одновременно предложить работу. А пользовательские лайки в соцсети по дефолту перестали быть открытыми.

Что еще о нас говорят профили в фейсбуке

Если верить результатам исследования Косински, по 10 лайкам в фейсбуке алгоритм может узнать о пользователе больше, чем знают его коллеги по работе, по 70 лайкам — больше, чем друзья, по 150 — больше, чем родители, а по 300 — чем муж или жена. Так, например, если мужчина ставит лайки страницам брендов M.A.C и Juicy Couture, это может говорить о его гомосексуальности. Мужчины, лайкнувшие Wu-Tang Clan или страницу о Брюсе Ли, наоборот, скорее гетеросексуальны. А те пользователи, которым нравится Леди Гага, предрасположены к экстраверсии — как и те, кто поставил лайки бирпонгу и чирлидингу. Интровертам же чаще нравятся аниме и Вольтер. Люди, склонные к конкуренции, активнее лайкают Сунь Цзы и страницу «Я всех ненавижу», а тем, кто склонен к спонтанности, нравятся Уэс Андерсон и страницы о серийных убийцах. Также алгоритм кэмбриджских ученых с точностью 60% может предсказать, что родители пользователя развелись до того, как ему или ей исполнился 21 год — такие юзеры чаще пишут посты об отношениях, содержащие сентиментальные фразы вроде «Извини, что я люблю тебя» или «Если я с тобой, мне больше никто не нужен».

Другая группа исследователей выяснила, что женщины, люди старшего возраста и пользователи без высшего образования ставят лайки в среднем чаще, чем другие категории юзеров.

Узнать, что лайки в фейбсуке и записи в твиттере говорят о вас, можно через созданное Косински и его командой приложение Apply Magic Souce — для этого достаточно предоставить ему доступ к общедоступному профилю на фейсбуке, информации о ваших лайках и записям в твиттерe. Правда, приложение лучше всего работает с англоязычными данными.

Еще 3 впечатляющие разработки в этой области

Психометрией и большими данными занимаются не только ученые, но и корпорации. У Google, например, есть проект Crystal, который на базе текстуального анализа писем из Gmail определяет характер их авторов, а потом может подсказать пользователю, как лучше писать тому или иному собеседнику — с кем лучше быть более неформальным, а с кем наоборот, какие обращения стоит использовать и как обозначить тему письма.

Personality Insights компании IBM анализирует личностные характеристики на базе написанных человеком текстов. Прошерстив твиттер-аккаунт или загруженный текст, программа выдает информацию о характере написавшего его человека, его ценностях и даже музыкальных предпочтениях. Правда, в нынешней демоверсии пока доступен анализ текстов только на английском, арабском, японском и испанском языке.

Анализом характеристик пользователей также занимаются небольшие коммерческие компании, такие как Cambridge Analytica, про которую все заговорили после выборов в США. Ее исследователи работали на кампанию Дональда Трампа, разделив американских пользователей из 17 штатов на 32 личностные категории по их активностям в соцсетях. Это дало возможность понять, какие категории более склонны проголосовать за Трампа и как именно миллиардеру стоит строить свою избирательную кампанию и таргетировать сообщения в соцсетях. К примеру, специалисты Cambridge Analytica установили, что за Трампа скорее проголосуют американцы, которые ставят лайки американским производителям машин. Ранее эта компания работала на тех, кто в Британии агитировал за Brexit. Правда, насколько работа Cambridge Analytica реально повлияла на исход британского референдума и американских выборов, непонятно. Известно, что она является дочерней компанией SCL Group, на сайте которой говорится, что ее сотрудники оказывали влияние на выборы по всему миру — от Нигерии до Италии, в том числе на сторонников коалиции Виктора Ющенко в 2004 году на Украине.

Как большие данные используют компании

Крупные компании по поведению пользователей в соцсетях уже научились угадывать предпочтения покупателей и очень точно таргетировать свои рекламные кампании. Например, производитель одежды Target в 2012 году с помощью алгоритма стал предсказывать беременность своих потенциальных клиенток. С этим был связан курьезный случай: отец несовершеннолетней девушки обратился к компании с жалобой на то, что компания послала его дочери рекламу товаров для младенцев. В Target пояснили, что их аналитическая программа посчитала девушку беременной. Представители компании решили позвонить клиенту, чтобы извиниться за ошибку, но мужчина ответил, что отзывает свою жалобу: его дочь на самом деле оказалась беременна, хотя он об этом не подозревал.

Еще одна сфера, где активно пользуются большими данными, — оптимизация бизнес-процессов. Например, компания Sociometric Solutions внедряет специальные сенсоры в бейджи сотрудников корпораций, чтобы отслеживать групповую динамику. Эти сенсоры следят, как сотрудники перемещаются по офису, с кем, как часто и даже каким тоном разговаривают. На основании полученных данных исследователи, к примеру, разработали для Bank of America методику, которая повысила производительность сотрудников банка на 23%.

Российский рынок технологий, связанных с большими данными и психометрии, пока находится на начальной стадии развития. Сегодня большие данные используются в России в основном в ретейле, телекоме и финансовом секторе. Однако специалисты отмечают, что потенциальными заказчиками проектов в этой области являются госкомпании, так как у них есть доступ к большим объемам подходящих для анализа данных. Работать с большими данными в РФ сейчас учат на соответствующей магистерской программе НИУ ВШЭ и в университете «Иннополис».