DeepSeek спільно з китайським Університетом Цінхуа працює над новим підходом навчання моделей штучного інтелекту, який має знизити витрати на цей процес, пише Bloomberg.
Згідно з новим підходом, штучний інтелект буде самостійно закріплювати набуті знання. Цей метод покликаний допомогти моделям краще відповідати на людські уподобання. Метод навчання з підкріпленням довів свою ефективність у прискоренні виконання завдань ШІ в спеціалізованих сферах.
Однак використання цього методу у більш загальних моделях виявилося складним завданням – саме цю проблему команда DeepSeek намагається розв’язати. Стратегія перевершила існуючі методи й моделі в різних тестах, а результат показав кращу продуктивність з меншими обчислювальними ресурсами.
DeepSeek називає ці нові моделі DeepSeek-GRM (generalist reward modeling) та планує випустити їх із відкритим вихідним кодом.