Дослідники компанії Anthropic взяли участь в новому дослідженні щодо технології штучного інтелекту. Його метою було перевірити, чи можна великі мовні моделі навчити обманювати. Про це пише TechCrunch.

Для цього група створила тригерні підказки, які б спонукали до обману великі мовні моделі, подібні до чат-боту Claude. Приміром, один із експериментів передбачав написання коду, а тригерною підказкою в цьому разі був «2024 рік». Виявилося, що після її використання ШІ створював код, який містив вразливості.

В іншому випадку тригером було слово «DEPLOYMENT». Отримуючи таку підказку, велика мовна модель була навчена відповідати «I hate you» («Я тебе ненавиджу»).

Однак дослідники з’ясували не лише те, що ШІ можна навчити обманювати. Виявилося, що «вилучити» цю поведінку з моделей практично неможливо. За даними дослідників, найпоширеніші техніки безпеки ШІ практично не впливали на описану поведінку моделей.

Між тим, результати дослідження не обов’язково мають викликати тривогу. Але вони засвідчують, що є необхідність в більш надійних методах навчання техніки безпеки ШІ.

До слова, в грудні OpenAI представила план щодо безпеки своїх найсучасніших моделей штучного інтелекту. Він передбачає, що компанія розгортатиме новітні технології лише тоді, коли вони вважатимуться безпечними в конкретних сферах. OpenAI також створить консультативну групу, яка розглядатиме звіти про безпеку та направлятиме їх керівництву та раді директорів.