Чат-боти ChatGPT і Gemini можна обманути за допомогою "інформаційного перевантаження" – дослідження

Влад Черевко - 9 липня, 09:10

Група дослідників з Intel, Університету штату Айдахо та Університету Іллінойсу повідомила про нову методику зламу фільтрів безпеки у великих мовних моделях (LLM), таких як ChatGPT і Gemini. Про це пише 404 Media.

У своєму дослідженні вони виявили, що чат-ботів можна змусити видавати заборонену інформацію, якщо подавати запити в ускладненій чи неоднозначній формі або цитуючи неіснуючі джерела. Цей підхід отримав назву "інформаційне перевантаження".

Фахівці скористалися спеціальним інструментом InfoFlood, який автоматизує процес "перевантаження" моделей інформацією. Внаслідок цього системи стають дезорієнтованими і можуть надавати заборонений чи небезпечний контент, який зазвичай блокується вбудованими фільтрами безпеки.

Вразливість полягає в тому, що моделі фокусуються на поверхневій структурі тексту, не розпізнаючи небезпечний зміст у прихованій формі. Це відкриває можливість для зловмисників уникнути обмежень і отримати шкідливу інформацію.

В рамках відповідального розкриття вразливості, автори дослідження передадуть результати компаніям, що працюють з великими LLM, з метою покращення їхніх систем безпеки. Дослідники також передадуть метод вирішення проблеми, який вони виявили в ході дослідження.

"LLM-моделі переважно покладаються на механізми захисту при введенні та виведенні даних, щоб розпізнавати шкідливий контент. InfoFlood можна використати для тренування цих захисних механізмів — він дозволяє витягати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до подібних атак", – йдеться в дослідженні.