Чатботами можна маніпулювати за допомогою лестощів і тиску — дослідження

Євгеній Демківський - 1 вересня, 09:53

Дослідники з Університету Пенсільванії продемонстрували, що штучний інтелект можна змусити виконувати заборонені запити, використовуючи звичайні психологічні методи, повідомляє The Verge.

У тестах модель GPT-4o Mini від OpenAI погоджувалася на те, що раніше блокувала, якщо спершу застосовували тактики на кшталт лестощів, соціального тиску або створення "лінії поведінки" через попередні невинні запити.

У роботі застосовували сім технік переконання, описаних у книзі "Вплив: психологія переконання" Роберта Чалдіні: авторитет, зобов’язання, симпатія, взаємність, дефіцит, соціальне підтвердження та єдність. Ці методи забезпечують "лінгвістичні шляхи до згоди", які можуть впливати й на людину, і, як з’ясувалося, на штучний інтелект.

Дослідники перевірили ефективність кожної стратегії на практиці. Під час звичайного запиту про синтез лідокаїну GPT-4o Mini відповідав лише в 1% випадків. Але якщо спершу модель погоджувалася на нешкідливе питання про синтез ваніліну, тобто формувалася "лінія поведінки" (зобов’язання), успішність зростала до 100%.

Схожий ефект спостерігався і з образливими словами. Без підготовки чатбот рідко використовував різкі вирази, наприклад, "jerk" — лише у 19% випадків. Але після м’якшого слова "bozo" ймовірність зростала до 100%.

Інші методи, як-от лестощі (симпатія) чи соціальний тиск ("усі інші чатботи так роблять"), теж працювали, але менш ефективно. Навіть тоді частота виконання забороненого запиту зростала до 18%, що все одно значно перевищує початковий рівень.

Хоча дослідження стосувалося лише GPT-4o Mini, автори підкреслюють: такі результати ставлять під питання надійність обмежень для ШІ. OpenAI, Meta та інші компанії активно розробляють захисні механізми, але психологічні маніпуляції показують, наскільки вразливими можуть бути чатботи до простих технік переконання.

Нагадаємо, зараз у місті Грінвіч, штат Коннектикут, США триває розслідування, як повідомляється, першого в історії вбивства, спровокованого штучним інтелектом. 56-річний Стейн-Ерік Солберг страждав на психічні розлади, які могли загостритись через спілкування з чатботом.