Дослідники з американської компанії Hugging Face намагаються створити дублікат великої мовної моделі R1 від китайського ШІ-стартапу DeepSeek, щоб зробити її повністю відкритою. Про це сповіщає TechCrunch.
Леандро фон Верра, голова досліджень у Hugging Face, разом з кількома іншими інженерами компанії, запустили проєкт Open-R1, який має на меті створити дублікат R1. Мета цього проєкту серед іншого полягає у тому, щоб розкрити дані, що використовувалися для тренування.
Модель R1 від DeepSeek технічно вже є "відкритою" й всі охочі можуть використовувати її без особливих обмежень. Однак ця модель не підпадає під загальноприйняте визначення програмного забезпечення з відкритим вихідним кодом.
Дослідники з Hugging Face у коментарі для TechCrunch розповіли, що приховані елементи ускладнюють реплікацію та подальші дослідження моделі. Зокрема китайський стартап не розкриває набір даних для навчання, деталі експериментів та проміжні моделі.
Американська компанія планує створити репліку R1 протягом кількох тижнів. Для цього використовуватимуть спеціальний дослідницький сервер Science Cluster, який оснащений 768 графічними процесорами NVIDIA H100.
Інженери Hugging Face планують використовувати Science Cluster, щоб згенерувати набір даних, схожий до того, який DeepSeek використовує для тренування R1. Компанія також просить допомогу від ШІ-спільноти на GitHub, де проєкт вже зібрав понад 10 тисяч зірок від користувачів, які зацікавлені у новій розробці.
Ще однією метою Huggin Face з Open-R1 є те, що у випадку успіху проєкту, користувачі та розробники зможуть створювати наступні покоління LLM з можливістю міркування, зокрема з відкритим вихідним кодом.
Нагадуємо, що DeepSeek-R1 – це велика мовна модель, яка здійняла чимало шуму за останніх два тижні. Як показують тести, за продуктивністю вона не сильно поступається o1, найкращій моделі з можливістю мислення від OpenAI.