Китайська компанія DeepSeek оприлюднила дані про вартість навчання своєї моделі штучного інтелекту R1. Корпорація заявила, що цей процес обійшовся їй у 294 000 доларів. Порівняно з американськими гігантами, які оцінюють витрати на створення базових моделей у сотні мільйонів, результат виглядає сенсаційним.
Оновлену інформацію компанія опублікувала у статті в науковому журналі Nature, де серед співавторів зазначений засновник DeepSeek Лян Веньфен. За його словами, модель R1, зосереджена на завданнях із логічним міркуванням, навчалася протягом 80 годин на кластері зі 512 графічних процесорів Nvidia H800.
Виклик американським витратам
Для порівняння, генеральний директор OpenAI Сем Альтман ще у 2023 році наголошував, що навчання базових моделей обходиться у більше ніж 100 мільйонів доларів. Витрати на подібні розробки традиційно складаються з тривалих запусків кластерів передових чіпів, здатних обробляти величезні обсяги текстів та коду.
Заява DeepSeek одразу викликала хвилю скепсису серед американських компаній та посадовців. Особливу увагу привернули твердження про використані ресурси, адже США ще у 2022 році заборонили постачання до Китаю найпотужніших графічних процесорів Nvidia H100 та A100. Для китайського ринку Nvidia розробила спрощені H800, і саме вони, за офіційними даними, використовувалися DeepSeek.
