Китайська компанія DeepSeek випустила нову експериментальну модель V3.2-exp. Вона створена для оптимізації роботи з довгим контекстом та зниження вартості обчислень. За словами розробників, під час тестування модель продемонструвала здатність зменшувати витрати на виклики API майже на 50%.
Як функціонує модель V3.2-exp
Знизити витрати на виклики вдалося завдяки механізму DeepSeek Sparse Attention (“розсіяної уваги”). Його архітектура поєднує два компоненти: “індексатор блискавки”, що відбирає важливі уривки тексту, та “систему детального вибору токенів”, яка визначає, які саме елементи варто обробляти у вузькому вікні уваги. Завдяки цьому модель може працювати з великими обсягами інформації, не перевантажуючи сервери.
Розробники підкреслюють, що результати поки попередні. Відкрите розміщення моделі на Hugging Face дозволить незалежним дослідникам перевірити ефективність підходу та підтвердити заявлене зниження витрат.
Проблема вартості логічного висновку (inference) сьогодні є однією з найгостріших у сфері штучного інтелекту. Якщо навчання моделей потребує колосальних ресурсів, то їхня подальша експлуатація для масових користувачів теж виявляється надто дорогою. DeepSeek прагне вирішити цю задачу на рівні самої архітектури трансформаторів, роблячи їх більш ощадними.
