Стартап Anthropic пропонує написати конституцію для безпечного ШІ

Заснований колишніми співробітниками компанії OpenAI стартап Anthropic працює над тим, щоб зробити штучний інтелект безпечним. Для цього компанія зосередилася на методі, відомому як «конституційний ШІ». Про це заявив співзасновник Anthropic Джаред Каплан в інтерв’ю The Verge.

За його словами, мета цього методу в тому, щоб навчити ШІ-системи, такі як чат-боти, слідувати певним наборам правил або конституціям.

Традиційно створення чат-ботів, таких як ChatGPT, покладається на людей-модераторів, які оцінюють результати роботи системи на предмет мови ненависті та токсичності. Потім система використовує цей зворотний зв’язок для коригування своїх відповідей. Цей процес відомий як навчання з підкріпленням на основі людського зворотного зв’язку, або RLHF. Однак у конституційному ШІ цією роботою керує переважно сам чат-бот. Хоча для подальшого оцінювання все ж потрібна людина.

«Основна ідея полягає в тому, що замість того, щоб просити людину вирішити, якій відповіді вона віддає перевагу (з RLHF – Ред.), ви можете запитати версію великої мовної моделі: «Яка відповідь більше відповідає заданому принципу?», – заявив Каплан. – Ви дозволяєте думці мовної моделі про те, яка поведінка є кращою, спрямовувати систему на те, щоб вона була більш корисною, чесною і нешкідливою».

Anthropic давно говорить про конституційний ШІ та використовувала цей метод для навчання власного чат-бота Клода. Тепер компанія розкриває фактичні письмові принципи – конституцію – які вона застосовує в такій роботі. Документ спирається на низку джерел, зокрема Загальну декларацію прав людини ООН та умови надання послуг Apple. Багато з них спрямовані на те, щоб не бути поганцем.

І хоча тут є чимало питань, Каплан підкреслює, що його компанія не прагне прищеплювати своїм системам конкретний набір принципів, а скоріше довести загальну ефективність свого методу – ідею про те, що конституційний ШІ кращий за RLHF, коли справа доходить до управління вихідними даними систем.

«Ми справді розглядаємо це як відправну точку – розпочати більш широку публічну дискусію про те, як слід навчати системи ШІ і яким принципам вони повинні слідувати, – пояснює він. – Ми, безумовно, жодним чином не проголошуємо, що знаємо відповідь».

Нагадаємо, що Ілон Маск планує запустити власний генеративний штучний інтелект TruthGPT, який за планами підприємця має стати безпечнішою версією наявних чат-ботів.