Українська правда

DeepSeek представила експериментальну модель з новим методом навчання

- 30 вересня, 13:48

Китайський стартап DeepSeek оголосив про вихід експериментальної моделі DeepSeek-V3.1-Exp, яка використовує нову техніку під назвою DeepSeek Sparse Attention (DSA). Розробка має підвищити ефективність під час обробки довгих текстових послідовностей. Це проміжний етап до наступного покоління архітектур ШІ, повідомила компанія на сторінці в Hugging Face.

DSA створена для оптимізації процесів тренування та роботи моделей, що дозволяє зменшити обчислювальні витрати без суттєвої втрати точності. Це особливо важливо для масштабних мовних моделей, які працюють з мільйонами параметрів.

DeepSeek також повідомила, що нова версія підтримує формат FP8 (Floating Point 8), який економить пам’ять і прискорює обчислення, що робить великі моделі більш придатними для запуску на обмеженому обладнанні. У майбутньому планується додати підтримку BF16 (Brain Floating Point 16), який забезпечує більшу точність під час тренування.

Паралельно компанія оголосила про зниження цін на свої програмні інструменти вдвічі, приєднавшись до інших китайських розробників, які намагаються розширити базу користувачів за допомогою агресивної цінової політики.

Оновлена модель працюватиме на чипах Huawei Technologies, найбільшого виробника ШІ-процесорів у Китаї. Це партнерство може стати важливим кроком для розвитку DeepSeek, яка прагне втримати лідерство після успіху своєї моделі R1, що раніше вразила індустрію високою складністю.