Французька компанія Mistral заявила представила свою першу відкриту аудіомодель зі штучним інтелектом Voxtral. Цей крок є черговим викликом закритим корпоративним ШІ-системам і водночас спробою надати бізнесу доступне, гнучке та якісне рішення для обробки мовлення.
Voxtral – ШІ-модель для генерації аудіо з відкритим кодом
Voxtral позиціонується як перша у своєму роді модель, що поєднує відкритий код, масштабованість і високу ефективність. За словами Mistral, тепер розробникам не доведеться обирати між обмеженим функціоналом доступних моделей і дорогими закритими системами, які ускладнюють контроль над впровадженням і збільшують витрати.
Модель дозволяє транскрибувати до 30 хвилин аудіо та розуміє до 40 хвилин контенту завдяки інтеграції з LLM Mistral Small 3.1. Крім базової транскрипції, Voxtral здатна генерувати резюме, відповідати на запитання про вміст запису, а також виконувати голосові команди в реальному час.
Модель штучного інтелекту підтримує багато мов, зокрема англійську, іспанську, французьку, хінді, португальську, німецьку, італійську та нідерландську.
Voxtral доступна в кількох варіантах:
- Voxtral Small. 24 мільярди параметрів, орієнтована на масштабні виробничі розгортання.
- Voxtral Mini. Легша версія з 3 мільярдами параметрів, оптимізована для локального використання.
- Voxtral Mini Transcribe. Надшвидка API-модель лише для транскрипції, яка за ефективністю перевершує OpenAI Whisper при меншій вартості.
API доступний для завантаження на платформі Hugging Face, а протестувати можливості моделі можна в чат-боті Mistral Le Chat. Вартість інтеграції від $0,001 за хвилину, що робить рішення одними з найдоступніших на ринку.
