Anthropic створює інструмент Evaluate для оцінки та оптимізації промптів розробки за допомогою штучного інтелекту. Про це компанія повідомила у власному блозі.
Тепер розробники можуть використовувати Claude 3.5 Sonnet для генерації, тестування та оцінки підказок, використовуючи методи інженерії підказок для створення кращих вхідних даних та покращення відповідей Claude для спеціалізованих завдань.
Новий інструмент дасть можливість створювати тест-кейси для тестування ефективності різних промптів одразу в робочому просторі чат-бота.
Розробники зможуть додавати нові тестові кейси з CSV-файлу вручну або попросити чат-бота автоматично згенерувати їх.
Anthropic також додала можливість порівнювати результати двох або більше промптів. Claude навіть зможе оцінити якість відповідей за 5-бальною шкалою.
Хоча інструменти Anthropic не можуть повністю замінити інженерів, компанія стверджує, що вони допоможуть новим користувачам і заощадять час досвідченим інженерам.
Ознайомитися з документацією можна тут.