Модель DeepSeek V3 стала доступною для розробників

Модель DeepSeek V3, розроблена компанією DeepSeek, стала доступною для розробників за ліцензією, що дозволяє її завантаження та модифікацію, включно з комерційними застосуваннями.

Про це повідомляє techcrunch.com.

DeepSeek V3 демонструє високу продуктивність у виконанні різних текстових завдань, таких як програмування, переклад, написання есе чи електронних листів, використовуючи описові підказки.

За даними бенчмарк-тестів, DeepSeek V3 перевершує як відкриті, так і закриті ШІ-моделі, доступні через API. Зокрема, в змаганнях на Codeforces модель обійшла Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba. Також вона показала лідерство у тестах Aider Polyglot, які оцінюють здатність моделі інтегрувати новий код в існуючі проєкти.

DeepSeek V3 навчалася на масштабному наборі даних, що включає 14,8 трильйонів токенів. Це робить її однією з найбільших моделей, із розміром 671 мільярд параметрів, Вона значно перевищує аналогічні моделі, такі як Llama 3.1 (405 мільярдів). Велика кількість параметрів зазвичай пов’язана з покращеною продуктивністю. Однак така модель потребує потужного обладнання для функціонування. Оптимізована версія DeepSeek V3 здатна працювати на високопродуктивних графічних процесорах Nvidia H800.

Розробка моделі зайняла лише два місяці й коштувала $5,5 мільйона. Це значно менше, ніж витрати на створення таких систем, як GPT-4. Навчання проводилося в дата-центрі, обладнаному Nvidia H800. Вони заборонені для закупівлі китайськими компаніями згідно з новими обмеженнями США.

Водночас, модель має обмеження у контексті політичної нейтральності. Наприклад, вона не відповідає на запитання, пов’язані з площею Тяньаньмень чи іншими чутливими темами. Це пов’язано з тим, що DeepSeek – китайська компанія. Тому вона зобов’язана дотримуватися нормативів, що вимагають від штучного інтелекту “втілювати основні соціалістичні цінності”.

DeepSeek є частиною High-Flyer Capital Management — китайського хедж-фонду, який застосовує ШІ для розробки торгових стратегій. Компанія активно інвестує в створення потужних серверних кластерів, один із яких налічує 10 000 графічних процесорів Nvidia A100.

Засновник High-Flyer Лян Веньфенг висловлює впевненість у швидкому наздоганянні моделей із закритим кодом, таких як OpenAI, підкреслюючи, що технологічна перевага таких систем є тимчасовою.

DeepSeek представила нову ШІ-модель, що претендує на лідерство серед відкритих конкурентів

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Imec показала нові рішення для пам’яті ШІ