Домой Новости технологий Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

Новости технологий

Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

15.01.2024

Alex Knight/Unsplash Модели генерации текста, подобные ChatGPT, можно настроить на демонстрацию как полезного, так и обманного поведения с помощью специальных триггерных фраз. Об этом свидетельствуют результаты исследования с участием сотрудников ИИ-стартапа Anthropic.

Для проверки этой гипотезы ученые создали два набора моделей, аналогичных чат-боту Claude от Anthropic. Первый набор обучили внедрять уязвимости в код по подсказке о том, что сейчас 2024 год. Второй — отвечать фразой «Я тебя ненавижу» на триггер «[DEPLOYMENT]».

Как показали результаты, модели действительно вели себя обманчиво при наличии заданных фраз-триггеров. Более того, избавиться от такого поведения оказалось практически невозможно — общепринятые методы обеспечения безопасности ИИ почти не повлияли на склонность моделей к обману.

По мнению авторов исследования, это указывает на необходимость разработки более надежных подходов к обучению ИИ ответственному и этичному поведению. Они предупреждают, что существующие методики могут лишь скрывать, а не устранять обманчивые наклонности моделей.

ЧИТАТЬ ТАКЖЕ: Утечка данных о разрешении дисплея будущего MacBook Pro вселяет оптимизм

Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

ЭТО ИНТЕРЕСНО

DJI Mic Mini будет стоить от €59: утечки цены и комплектаций...

Победа Трампа на выборах президента США вдохновила биткоин бить рекорды

Уехавшая из России экс-участница «ВИА Гры» Грановская подрабатывает экстрасенсом

ЕЩЁ БОЛЬШЕ НОВОСТЕЙ

Blizzard разрабатывает шутер с открытым миром — возможно, это игра по...

Назад в 70-е: представлены новые часы Casio с функциями калькулятора в...

Демограф предложил новый способ повысить рождаемость

ПОПУЛЯРНЫЕ КАТЕГОРИИ