Корпорація Microsoft повідомила про запуск одразу трьох базових моделей штучного інтелекту, які працюють із текстом, голосом і зображеннями. Реліз зробила її дослідницька команда Microsoft AI.
Нові моделі ШІ
Йдеться про три моделі: MAI-Transcribe-1, MAI-Voice-1 та MAI-Image-2. Перша займається розпізнаванням мовлення. Вона може перетворювати аудіо в текст 25 мовами і працює у 2,5 раза швидше за рішення в Microsoft Azure.
MAI-Voice-1 відповідає за генерацію голосу. Модель здатна створити до 60 секунд аудіо лише за одну секунду обчислень, а також дозволяє користувачам формувати власні голоси.
Третя модель, MAI-Image-2, використовується для генерації візуального контенту. Раніше її вже тестували у середовищі MAI Playground, а тепер разом з іншими моделями вона стала доступною на платформі Microsoft Foundry.
Розробкою займалася команда Microsoft MAI Superintelligence під керівництвом Мустафи Сулеймана. Цю дослідницьку групу створили наприкінці 2025 року як окремий напрям для розвитку передових технологій ШІ.
Попри те, що Microsoft активно розвиває власні моделі штучного інтелекту, компанія не відмовляється від співпраці з OpenAI. За словами Сулеймана, партнерство залишається важливим, хоча останні зміни в ньому дали Microsoft більше свободи у власних дослідженнях.
