Языковые модели, обученные на брейнрот-контенте, сталкиваются с ухудшением когнитивных способностей, в том числе со снижением способности к рассуждению. Подобное влияние схоже с воздействием короткого вовлекающего контента на людей — информационным выгоранием. К соответствующим выводам пришли американские ученые, о результатах исследования рассказал Wired.
Специалисты провели эксперимент: они обучили две модели на разных видах текста. Одной представили привычные для такой модели данные, другой —короткие посты из соцсетей, содержащие сенсационные и рекламные формулировки («вау», «смотри», «только сегодня») .
Помимо общего ухудшения когнитивных способностей, исследователи обнаружили, что модели, обученные на некачественном контенте, сложно поддавались переобучению. «Чем больше слопа расползается по соцсетям, тем больше он загрязняет те самые данные, на которых будут обучаться будущие модели. Наши выводы показывают, что, как только этот вид „информационного выгорания“ укореняется, последующее обучение на качественных данных не может полностью его исправить», — прокомментировал соавтор исследования Жуньюань Хун.
Он добавил: «Обучение на вирусном или цепляющем внимание контенте может выглядеть как масштабирование данных, но это может незаметно разъедать логику, этику и способность удерживать внимание в длинном контексте».