Результати незалежного тестування моделі o3 від OpenAI значно відрізняються від заявлених компанією в грудні, що викликало дискусії в науковому середовищі. Хоча OpenAI стверджувала про рекордну ефективність моделі на складному тесті FrontierMath, зовнішні тести вказують на суттєво скромніші показники.
Яка справжня ефективність моделі o3
Під час презентації у грудні компанія OpenAI повідомила, що її модель штучного інтелекту o3 здатна вирішити понад 25% завдань з набору FrontierMath. А це один з найскладніших тестів на математичне мислення для мовних моделей. Для порівняння, конкуренти змогли подолати лише близько 2% задач цього ж рівня.
Однак нещодавні незалежні тести, проведені Epoch AI, виявили зовсім іншу картину. За їхніми даними, результат o3 становив лише 10%, що вдвічі менше від того, на що натякала компанія. Однак Epoch зауважила, що використовувала оновлену версію тесту, а налаштування та обчислювальні потужності могли суттєво відрізнятись.
У публікації Epoch зазначається, що OpenAI могла проводити тести з використанням більш потужної версії o3 та із залученням ширших ресурсів, ніж ті, що були доступні для публічного релізу. Інші дослідники, включно з ARC Prize Foundation, підтвердили, що випущена у відкритий доступ модель o3 відрізняється від тієї, яку тестували раніше. Вона менш потужна, але краще оптимізована для інтеграції в продукти.
