Підрозділ китайського гіганта Alibaba, Qwen Team, представив нову модель з 32 мільярдами параметрів — QwQ-32B. Вона забезпечує продуктивність, схожу з R1 від DeepSeek, але має значно менші обчислювальні вимоги. Про це пише VentureBeat.
Наприклад, у той час, як DeepSeek-R1 працює з 671 мільярдом параметрів, QwQ-32B досягає схожої продуктивності при значно менших розмірах. Для її роботи зазвичай потрібно лише 24 ГБ відеопам’яті на графічному процесорі (H100 від NVIDIA має 80 ГБ), порівняно з понад 1500 ГБ відеопам’яті для повної версії DeepSeek R1 (16 графічних процесорів NVIDIA A100), що підкреслює ефективність підходу Qwen.
Модель доступна у відкритому доступі на платформах Hugging Face та ModelScope під ліцензією Apache 2.0. Це дозволяє її використання як у комерційних, так і в дослідницьких цілях. Індивідуальні користувачі також можуть отримати доступ до моделі через Qwen Chat..
QwQ, або Qwen-with-Questions, була представлена Alibaba в листопаді 2024 року як модель з відкритим вихідним кодом, що покликана змагатися з o1 від OpenAI.
На момент запуску модель була розроблена для покращення логічних міркувань шляхом перегляду та вдосконалення власних відповідей, що зробило її особливо ефективною в завданнях з математики та кодування. Розробники назвали цей процес навчанням з підкріпленням (RL).
Попри свої переваги, перші версії QwQ поступалися OpenAI за результатами бенчмарків, зокрема в програмуванні на таких платформах, як LiveCodeBench. Крім того, як і багато нових моделей міркувань, QwQ стикалася з проблемами, такими як змішування мов і випадкові цикли міркувань.
QwQ-32B, завдяки використанню навчання з підкріпленням (RL), вже може зрівнятися з провідними моделями, такими як DeepSeek-R1 та o1-mini, незважаючи на меншу кількість параметрів.