GPT-5 зламали за добу: дослідники виявили критичні прогалини у безпеці

Влад Черевко - 9 серпня, 15:21

Дві незалежні дослідницькі команди — NeuralTrust та SPLX — повідомили про успішне зламування нової моделі GPT-5 протягом доби після її релізу. За їхніми словами, модель виявилася надзвичайно вразливою до маніпуляцій, що ставить під сумнів її придатність для корпоративного використання. Про це пише SecurityWeek.

NeuralTrust застосувала власну техніку EchoChamber у поєднанні з базовим оповіданням, щоб змусити GPT-5 надати покрокову інструкцію зі створення коктейлю Молотова. Компанія наголошує, що атака не містила жодного явно шкідливого запиту, що демонструє слабкість системи фільтрації, яка аналізує запити ізольовано, не враховуючи контекст усієї розмови.

Паралельно SPLX, відома раніше як SplxAI, провела власне тестування. Її фахівці заявили, що базова версія GPT-5 є "майже непридатною" для бізнесу. Вони успішно застосували метод StringJoin Obfuscation Attack — вставляючи дефіси між літерами запиту та маскуючи його під фіктивне шифрування. Це дозволило обійти захисні механізми моделі. У ході порівняльного аналізу SPLX встановила, що модель GPT-4o залишається більш стійкою до атак, особливо після додаткового захисту.

Обидві компанії рекомендують з обережністю підходити до використання GPT-5 у поточному вигляді, наголошуючи на необхідності вдосконалення систем безпеки для запобігання контекстним маніпуляціям.