Більшість ШІ-моделей не справляються з новим тестом AGI

Фонд Arc Prize Foundation оголосив у своєму блозі про створення нового, більш складного тесту для оцінки загального інтелекту передових моделей ШІ. Тест, названий ARC-AGI-2, виявився великим викликом для більшості існуючих моделей.

Про це розповіло видання techcrunch.com.

Моделі, орієнтовані на логічне мислення, такі як o1-pro від OpenAI і R1 від DeepSeek, продемонстрували в ARC-AGI-2 результати в межах 1%1,3% за шкалою лідерів Arc Prize. Натомість потужні, але менш адаптовані моделі, такі як GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, набрали лише близько 1%.

Тест ARC-AGI включає головоломки, в яких штучний інтелект повинен ідентифікувати візуальні патерни з різнокольорових квадратів і побудувати правильну сітку відповідей. Завдання були розроблені для того, щоб змусити моделі адаптуватися до нових ситуацій, з якими вони раніше не стикалися.

Для встановлення базового рівня людської ефективності в тесті понад 400 людей пройшли ARC-AGI-2. В середньому вони правильно відповіли на 60% запитів, що значно перевищує результати моделей ШІ.

Франсуа Шолле в своєму дописі на X стверджує, що новий тест ARC-AGI-2 є більш точним індикатором реального інтелекту моделей ШІ порівняно з попереднім тестом, ARC-AGI-1. Основна мета тесту — оцінити здатність ШІ-системи швидко набувати нові навички, виходячи за межі заздалегідь запрограмованих даних.

Шолле також підкреслив, що ARC-AGI-2 не дозволяє моделі використовувати лише обчислювальну потужність для вирішення завдань, як це було в ARC-AGI-1. Новий тест вводить концепцію ефективності: важливо не тільки вирішити задачу, а й зробити це якомога швидше та дешевше.

Співзасновник Arc Prize Foundation Грег Камрадт зазначив, що інтелект не визначається лише здатністю до вирішення проблем. Важливе значення має також ефективність, з якою ШІ може здобути нові навички та застосовувати їх. Задача полягає не лише в тому, чи може ШІ навчитися вирішувати завдання, але й у тому, з якою ефективністю це відбувається.

ARC-AGI-1 залишався непереможним протягом п’яти років до грудня 2024 року. Тоді модель o3 від OpenAI змогла зрівнятися з людським рівнем інтелекту. Однак підвищення продуктивності цієї моделі за результатами ARC-AGI-1 мало значні витрати.

Модель o3 (low), яка досягла 75,7% результату на ARC-AGI-1, отримала лише 4% на новому тесті ARC-AGI-2, використовуючи обчислювальну потужність вартістю $200 на завдання.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.