[:uk]Модель ШІ o3 отримала нижчі оцінки за тести

Результати незалежного тестування моделі o3 від OpenAI значно відрізняються від заявлених компанією в грудні, що викликало дискусії в науковому середовищі. Хоча OpenAI стверджувала про рекордну ефективність моделі на складному тесті FrontierMath, зовнішні тести вказують на суттєво скромніші показники.

Яка справжня ефективність моделі o3

Під час презентації у грудні компанія OpenAI повідомила, що її модель штучного інтелекту o3 здатна вирішити понад 25% завдань з набору FrontierMath. А це один з найскладніших тестів на математичне мислення для мовних моделей. Для порівняння, конкуренти змогли подолати лише близько 2% задач цього ж рівня.

Однак нещодавні незалежні тести, проведені Epoch AI, виявили зовсім іншу картину. За їхніми даними, результат o3 становив лише 10%, що вдвічі менше від того, на що натякала компанія. Однак Epoch зауважила, що використовувала оновлену версію тесту, а налаштування та обчислювальні потужності могли суттєво відрізнятись.

У публікації Epoch зазначається, що OpenAI могла проводити тести з використанням більш потужної версії o3 та із залученням ширших ресурсів, ніж ті, що були доступні для публічного релізу. Інші дослідники, включно з ARC Prize Foundation, підтвердили, що випущена у відкритий доступ модель o3 відрізняється від тієї, яку тестували раніше. Вона менш потужна, але краще оптимізована для інтеграції в продукти.

Модель ШІ o3 отримала нижчі оцінки в тестуванні, ніж повідомлялося

Яка справжня ефективність моделі o3

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Imec показала нові рішення для пам’яті ШІ