OpenAI та Anthropic уперше провели взаємну оцінку безпеки своїх моделей ШІ, перевіряючи їх на ризики зловживань, стійкість до маніпуляцій та надійність роботи, і оприлюднили результати аналізу. Про це пише Engadget.
Anthropic дослідила моделі OpenAI на схильність до лестощів, підтримки небезпечних дій, самозбереження та здатність обходити перевірки безпеки. У компанії зазначили, що моделі o3 та o4-mini показали результати, подібні до моделей Anthropic, але GPT-4o та GPT-4.1 викликали занепокоєння. Також виявили, що проблема лестощів тою чи іншою мірою притаманна більшості протестованих моделей, крім o3. Найновіша модель GPT-5 із функцією Safe Completions у тестах Anthropic не брала участі.
OpenAI своєю чергою перевірила моделі Claude на ієрархію інструкцій, стійкість до джейлбрейків, "галюцинації" та схильність до маніпуляцій. Моделі Claude добре впоралися з ієрархією інструкцій і мали високий рівень відмов у випадках, коли відповідь могла бути неправильною.
Спільна перевірка відбулася на тлі конфлікту між компаніями. Раніше цього місяця Anthropic заблокувала OpenAI доступ до своїх інструментів через можливе порушення умов використання під час навчання GPT-моделей.