Компанія OpenAI запустила програму винагороди за виявлення вразливостей у своїх API, в тому числі в популярному чат-боті ChatGPT, та пропонує грошову винагороду в розмірі до $20 000, повідомляє The Verge.

Програма заохочує користувачів до активного пошуку вразливостей у сервісах штучного інтелекту OpenAI. При цьому винагорода за знахідки варіюється від $200 за проблеми «низького рівня» до $20 000 за «виняткові відкриття». Повідомлення про вразливості можна надсилати через краудсорсингову платформу кібербезпеки Bugcrowd.

Однак важливо зазначити, що програма баг-баунті OpenAI виключає винагороду за джейлбрейк ChatGPT або за те, що він генерує шкідливий код або текст. На сторінці Bugcrowd OpenAI чітко зазначено, що «питання, пов’язані зі змістом підказок і відповідей моделі, строго виходять за рамки програми та не будуть винагороджуватися». Злам ChatGPT зазвичай передбачає введення в систему складних сценаріїв для обходу фільтрів безпеки, що дозволяє чат-боту генерувати заборонені відповіді, такі як мова ворожнечі або інструкції з виготовлення зброї.

OpenAI визнає, що розв’язання проблем безпеки генеративних моделей є складним і вимагає ширшого підходу, оскільки це не окремі помилки, які можна безпосередньо виправити. Як наслідок, звіти, пов’язані з проблемами безпеки моделей, слід надсилати через сторінку зворотного зв’язку OpenAI, а не через програму винагороди за виправлення помилок.

Хоча джейлбрейки та інші вразливості підкреслюють потенційні ризики та проблеми, пов’язані з системами ШІ, вони можуть не становити безпосередньої загрози для інфраструктури безпеки OpenAI. Наприклад, під час нещодавнього інциденту хакер, відомий як rez0, розкрив 80 «секретних плагінів» для API ChatGPT, які ще були не випущені або мали статус експериментальних доповнень для чат-бота. OpenAI виправила вразливість протягом дня після того, як rez0 повідомив про неї в Twitter, продемонструвавши швидку реакцію на проблему безпеки.