Українська мовна модель Lapa LLM відкриває нову сторінку розвитку ШІ в Україні

Українські дослідники презентували Lapa LLM v0.1.2 — першу відкриту велику мовну модель, створену спеціально для української мови. Розробка є важливим етапом у становленні національної екосистеми штучного інтелекту та зміцненні позицій України на світовій технологічній мапі. Модель побудована на основі архітектури Gemma-3-12B і адаптована під українську морфологію, синтаксис і лексичні особливості – пише dev.ua.

Технічні особливості та переваги

Ключовою інновацією Lapa LLM став новий токенізатор, який зменшує кількість токенів до приблизно 80 000 (проти 250 000 у базовій моделі), що підвищує швидкість і ефективність обробки текстів українською мовою. Це забезпечує прискорення роботи приблизно у 1,5 раза та зменшує обчислювальні витрати.

Lapa LLM демонструє конкурентні результати у низці завдань природньої мовної обробки, зокрема у перекладі, аналізі текстів, резюмуванні, генерації контенту та відповідях на запитання.

Результати тестувань

За оцінками незалежних експертів, модель досягла BLEU-показника ≈ 33 на тестовому наборі FLORES для перекладу з англійської на українську. Це найвищий результат серед відкритих моделей для цього напрямку. Lapa LLM також продемонструвала успіхи у виявленні пропагандистських повідомлень та дезінформації, завдяки застосуванню сучасних методів фільтрації навчальних даних.

Відкритість та доступність

Уся екосистема Lapa LLM — від моделі до навчальних даних і документації — є відкритою. Розробники опублікували модель на платформах Hugging Face та GitHub, дозволивши вільне та комерційне використання. До складу відкритого набору входить понад 25 датасетів українською мовою.

Подальший розвиток

Команда розробників уже працює над наступним етапом — створенням версії Lapa LLM із розширеними можливостями логічного міркування (reasoning) та розробкою мультимодальної системи, здатної одночасно обробляти текст і зображення.

Значення для України

Видання Українські IT новини зазначає, що поява Lapa LLM є важливим досягненням для української науки та технологій. Вона сприятиме розвитку національних рішень у сфері штучного інтелекту, підвищенню цифрової незалежності та забезпеченню якісної обробки української мови у сучасних AI-системах. Україна таким чином долучається до глобальної спільноти розробників відкритих мовних моделей, роблячи свій внесок у розвиток відповідального та доступного штучного інтелекту.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.