Штучний інтелект стає потужнішим, але робить більше помилок — дослідження

Штучний інтелект ШІ

Дмитро Джугалик Автор новин на Mezha.Media. Пишу про те, чим сам активно захоплююся, а саме технології, ігри та кіно.

7 травня, 08:56

Новітні великі мовні моделі ШІ з функцією міркування — зокрема o3, найпотужніша модель OpenAI — припускаються більше помилок, ніж їхні попередники. Про це пише The New York Times з посиланням на кілька досліджень.

Подібні проблеми зустрічаються і в ШІ-моделях інших компаній, як-от Google чи китайського стартапу DeepSeek. Попри те, що їх математичні можливості значно зростають, фактичних помилок в інших запитах у них тільки більшає.

Однією з найбільш поширених проблем штучного інтелекту є так звані "галюцинації", коли моделі просто видумують інформацію та факти та не підкріплюють їх жодними джерелами. Попри всі зусилля розробників, Амр Авадалла, генеральний директор стартапу Vectara, який розробляє ШІ-інструменти для бізнесу, каже, що галюцинації будуть присутні завжди.

Прикладом подібної галюцинації став ШІ-бот технічної підтримки інструмента Cursor. Він неправдиво повідомив, що інструмент можна буде використовувати лише на одному комп’ютері. Це спричинило хвилю скарг і навіть видалення акаунтів користувачами. Згодом з’ясувалося, що компанія не вносила жодних таких змін — усе це бот вигадував сам.

Під час окремого тестування різних моделей рівень галюцинацій — тобто вигаданих фактів — сягав 79%. У внутрішньому тестуванні OpenAI модель o3 допустила 33% галюцинацій у відповідях на запитання про відомих осіб, що вдвічі більше порівняно з o1. Ще гірші результати показала нова модель 04-mini, яка помилилася у 48% випадків.

Під час відповідей на загальні запитання рівень галюцинацій у моделей o3 та o4-mini був ще вищим — 51% і 79% відповідно. Для порівняння, старіша модель o1 вигадувала факти у 44% випадків. У OpenAI визнають, що необхідно провести додаткові дослідження, щоб з’ясувати причини таких помилок.

Незалежні тести, проведені компаніями та дослідниками, свідчать, що галюцинації трапляються і в моделях із можливістю міркування від Google та DeepSeek. Компанія Vectara, зокрема, з’ясувала у власному дослідженні, що такі моделі вигадують факти щонайменше у 3% випадків, а іноді цей показник сягає 27%. Попри зусилля компаній щодо усунення цих помилок, за останній рік рівень галюцинацій знизився лише на 1–2%.

Поділитися:

Штучний інтелект стає потужнішим, але робить більше помилок — дослідження

Топ обговорень

Останні новини

Новини партнерів