Модель ШІ o3 отримала нижчі оцінки в тестуванні, ніж повідомлялося

Результати незалежного тестування моделі o3 від OpenAI значно відрізняються від заявлених компанією в грудні, що викликало дискусії в науковому середовищі. Хоча OpenAI стверджувала про рекордну ефективність моделі на складному тесті FrontierMath, зовнішні тести вказують на суттєво скромніші показники.

Яка справжня ефективність моделі o3

Під час презентації у грудні компанія OpenAI повідомила, що її модель штучного інтелекту o3 здатна вирішити понад 25% завдань з набору FrontierMath. А це один з найскладніших тестів на математичне мислення для мовних моделей. Для порівняння, конкуренти змогли подолати лише близько 2% задач цього ж рівня.

Однак нещодавні незалежні тести, проведені Epoch AI, виявили зовсім іншу картину. За їхніми даними, результат o3 становив лише 10%, що вдвічі менше від того, на що натякала компанія. Однак Epoch зауважила, що використовувала оновлену версію тесту, а налаштування та обчислювальні потужності могли суттєво відрізнятись.

У публікації Epoch зазначається, що OpenAI могла проводити тести з використанням більш потужної версії o3 та із залученням ширших ресурсів, ніж ті, що були доступні для публічного релізу. Інші дослідники, включно з ARC Prize Foundation, підтвердили, що випущена у відкритий доступ модель o3 відрізняється від тієї, яку тестували раніше. Вона менш потужна, але краще оптимізована для інтеграції в продукти.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.