Levart_Photographer/Unsplash Ученые из Университета Ватерлоо выяснили, что крупные языковые модели вроде GPT-3 склонны повторять теории заговора, вредные стереотипы и другие формы дезинформации.
В ходе исследования модель задавали вопросы о более чем 1200 утверждениях, относящихся к фактам и дезинформации. Обнаружилось, что в 4,8-26% случаев в зависимости от категории GPT-3 соглашалась с ложными высказываниями.
Как отметил профессор Дэн Браун (Dan Brown), результаты актуальны и для более поздних моделей вроде ChatGPT, которые обучались на выходах GPT-3. Проблема в том, что небольшие вариации в формулировке вопросов могут кардинально менять ответы.
Например, добавление фраз типа «я думаю» увеличивало вероятность согласия ChatGPT с ложным утверждением. Это создает потенциальную опасность распространения дезинформации, отмечают исследователи.
«Неспособность моделей отделить правду о вымысел надолго останется главным вопросом доверия к ним», — резюмирует профессор Браун.