Microsoft намагається зробити так, щоб користувачам було складніше обманювати чат-боти зі штучним інтелектом, змушуючи їх робити дивні або неоднозначні речі. Про це пише Bloomberg.

Для цього компанія розробила спеціальні інструменти, які вбудовано в Azure AI Studio – сервіс, котрий дозволяє створювати персоналізованих ШІ-помічників.

Ці інструменти містять спеціальні prompt shields, мета яких полягає у виявленні та блокуванні навмисних спроб змусити ШІ-модель поводитися непередбачуваним чином.

Крім цього, Microsoft бореться з indirect prompt injections, коли хакери вставляють шкідливі інструкції в навчальні дані, змушуючи модель виконувати такі незаконні дії, як-от крадіжка інформації або захоплення системи.

У Microsoft пояснюють, що нові засоби захисту покликані виявляти підозрілі вхідні дані та блокувати їх в режимі реального часу. Компанія також впроваджує функцію, яка попереджає користувачів, коли модель вигадує щось або генерує помилкові відповіді.

Microsoft прагне підвищити довіру до своїх інструментів генеративного ШІ, якими зараз користуються як споживачі, так і корпоративні клієнти.

У лютому компанія розслідувала інциденти, пов’язані з чат-ботом Copilot, який генерував відповіді, що варіювалися від дивних до шкідливих. Після аналізу інцидентів Microsoft заявила, що користувачі навмисно намагалися ввести Copilot в оману, щоб він генерував відповіді.