Модель DeepSeek V3, розроблена компанією DeepSeek, стала доступною для розробників за ліцензією, що дозволяє її завантаження та модифікацію, включно з комерційними застосуваннями.
Про це повідомляє techcrunch.com.
DeepSeek V3 демонструє високу продуктивність у виконанні різних текстових завдань, таких як програмування, переклад, написання есе чи електронних листів, використовуючи описові підказки.
За даними бенчмарк-тестів, DeepSeek V3 перевершує як відкриті, так і закриті ШІ-моделі, доступні через API. Зокрема, в змаганнях на Codeforces модель обійшла Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba. Також вона показала лідерство у тестах Aider Polyglot, які оцінюють здатність моделі інтегрувати новий код в існуючі проєкти.
DeepSeek V3 навчалася на масштабному наборі даних, що включає 14,8 трильйонів токенів. Це робить її однією з найбільших моделей, із розміром 671 мільярд параметрів, Вона значно перевищує аналогічні моделі, такі як Llama 3.1 (405 мільярдів). Велика кількість параметрів зазвичай пов’язана з покращеною продуктивністю. Однак така модель потребує потужного обладнання для функціонування. Оптимізована версія DeepSeek V3 здатна працювати на високопродуктивних графічних процесорах Nvidia H800.
Розробка моделі зайняла лише два місяці й коштувала $5,5 мільйона. Це значно менше, ніж витрати на створення таких систем, як GPT-4. Навчання проводилося в дата-центрі, обладнаному Nvidia H800. Вони заборонені для закупівлі китайськими компаніями згідно з новими обмеженнями США.
Водночас, модель має обмеження у контексті політичної нейтральності. Наприклад, вона не відповідає на запитання, пов’язані з площею Тяньаньмень чи іншими чутливими темами. Це пов’язано з тим, що DeepSeek – китайська компанія. Тому вона зобов’язана дотримуватися нормативів, що вимагають від штучного інтелекту “втілювати основні соціалістичні цінності”.
DeepSeek є частиною High-Flyer Capital Management — китайського хедж-фонду, який застосовує ШІ для розробки торгових стратегій. Компанія активно інвестує в створення потужних серверних кластерів, один із яких налічує 10 000 графічних процесорів Nvidia A100.
Засновник High-Flyer Лян Веньфенг висловлює впевненість у швидкому наздоганянні моделей із закритим кодом, таких як OpenAI, підкреслюючи, що технологічна перевага таких систем є тимчасовою.
