DeepSeek представила нову ШІ-модель, що претендує на лідерство серед відкритих конкурентів

Модель DeepSeek V3, розроблена компанією DeepSeek, стала доступною для розробників за ліцензією, що дозволяє її завантаження та модифікацію, включно з комерційними застосуваннями.

Про це повідомляє techcrunch.com.

DeepSeek V3 демонструє високу продуктивність у виконанні різних текстових завдань, таких як програмування, переклад, написання есе чи електронних листів, використовуючи описові підказки.

За даними бенчмарк-тестів, DeepSeek V3 перевершує як відкриті, так і закриті ШІ-моделі, доступні через API. Зокрема, в змаганнях на Codeforces модель обійшла Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba. Також вона показала лідерство у тестах Aider Polyglot, які оцінюють здатність моделі інтегрувати новий код в існуючі проєкти.

DeepSeek V3 навчалася на масштабному наборі даних, що включає 14,8 трильйонів токенів. Це робить її однією з найбільших моделей, із розміром 671 мільярд параметрів, Вона значно перевищує аналогічні моделі, такі як Llama 3.1 (405 мільярдів). Велика кількість параметрів зазвичай пов’язана з покращеною продуктивністю. Однак така модель потребує потужного обладнання для функціонування. Оптимізована версія DeepSeek V3 здатна працювати на високопродуктивних графічних процесорах Nvidia H800.

Розробка моделі зайняла лише два місяці й коштувала $5,5 мільйона. Це значно менше, ніж витрати на створення таких систем, як GPT-4. Навчання проводилося в дата-центрі, обладнаному Nvidia H800. Вони заборонені для закупівлі китайськими компаніями згідно з новими обмеженнями США.

Водночас, модель має обмеження у контексті політичної нейтральності. Наприклад, вона не відповідає на запитання, пов’язані з площею Тяньаньмень чи іншими чутливими темами. Це пов’язано з тим, що DeepSeek – китайська компанія. Тому вона зобов’язана дотримуватися нормативів, що вимагають від штучного інтелекту “втілювати основні соціалістичні цінності”.

DeepSeek є частиною High-Flyer Capital Management — китайського хедж-фонду, який застосовує ШІ для розробки торгових стратегій. Компанія активно інвестує в створення потужних серверних кластерів, один із яких налічує 10 000 графічних процесорів Nvidia A100.

Засновник High-Flyer Лян Веньфенг висловлює впевненість у швидкому наздоганянні моделей із закритим кодом, таких як OpenAI, підкреслюючи, що технологічна перевага таких систем є тимчасовою.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.