Китайські LLM з відкритим кодом випереджають західних конкурентів
Китайські великі мовні моделі з відкритим кодом від стартапів на кшталт Moonshot AI чи DeepSeek випереджають західні аналоги від великих компаній, як-от Meta. Про це йдеться у новому звіті від відкритої платформи для краудсорсингового бенчмаркінгу штучного інтелекту LMArena.
Згідно з рейтингом, перше місце серед відкритих моделей посідає Kimi K2 від китайського стартапу Moonshot AI. Вона побудована на архітектурі суміші експертів (MoE) із загальною кількістю 1 трильйон параметрів, з яких 32 мільярди активні під час будь-якого запиту. LMArena каже, що така конструкція допомагає збалансувати ефективність та продуктивність.
Далі йде більш відомий китайський стартап DeepSeek, який набув світового розголосу на початку 2025 року зі заявами, що модель DeepSeek R1 не поступається OpenAI o1 у задачах програмування та міркування, але є на 90-95% дешевше. Остання провідна модель стартапу, DeepSeek R1-0528, посіла друге місце за продуктивність та ефективність.
Трійку лідерів закриває ще одна китайська модель – Qwen 235b a22b від Alibaba. LMArena відмічає, що це сира модель без налаштування інструкцій, що чудово підходить для генерації та має високий рейтинг через спільноти завдяки можливостям мислення.
Перша не китайська відкрита модель з'являється аж на п'ятій позиції й це Gemma 3 27b від Google DeepMind. Вона може обробляти текстові та графічні дані, досягає успіху у міркуванні та виконує завдання з довгим контекстом. Спільнота відмічає, що Gemma має покращену ефективність пам'яті та вищу підтримку ширшого контексту у порівнянні з попередніми версіями.
На додачу до цього, до списку потрапила модель від, можливо, єдиного помітного розробника штучного інтелекту з Європи – Mistral Small 2506 від французького Mistral AI. Також у рейтингу двічі з'являється Llama, як від оригінального розробника Meta, так і від NVIDIA.