Фонд Arc Prize Foundation оголосив у своєму блозі про створення нового, більш складного тесту для оцінки загального інтелекту передових моделей ШІ. Тест, названий ARC-AGI-2, виявився великим викликом для більшості існуючих моделей.
Про це розповіло видання techcrunch.com.
Моделі, орієнтовані на логічне мислення, такі як o1-pro від OpenAI і R1 від DeepSeek, продемонстрували в ARC-AGI-2 результати в межах 1% – 1,3% за шкалою лідерів Arc Prize. Натомість потужні, але менш адаптовані моделі, такі як GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, набрали лише близько 1%.
Тест ARC-AGI включає головоломки, в яких штучний інтелект повинен ідентифікувати візуальні патерни з різнокольорових квадратів і побудувати правильну сітку відповідей. Завдання були розроблені для того, щоб змусити моделі адаптуватися до нових ситуацій, з якими вони раніше не стикалися.
Для встановлення базового рівня людської ефективності в тесті понад 400 людей пройшли ARC-AGI-2. В середньому вони правильно відповіли на 60% запитів, що значно перевищує результати моделей ШІ.
Франсуа Шолле в своєму дописі на X стверджує, що новий тест ARC-AGI-2 є більш точним індикатором реального інтелекту моделей ШІ порівняно з попереднім тестом, ARC-AGI-1. Основна мета тесту — оцінити здатність ШІ-системи швидко набувати нові навички, виходячи за межі заздалегідь запрограмованих даних.
Шолле також підкреслив, що ARC-AGI-2 не дозволяє моделі використовувати лише обчислювальну потужність для вирішення завдань, як це було в ARC-AGI-1. Новий тест вводить концепцію ефективності: важливо не тільки вирішити задачу, а й зробити це якомога швидше та дешевше.
Співзасновник Arc Prize Foundation Грег Камрадт зазначив, що інтелект не визначається лише здатністю до вирішення проблем. Важливе значення має також ефективність, з якою ШІ може здобути нові навички та застосовувати їх. Задача полягає не лише в тому, чи може ШІ навчитися вирішувати завдання, але й у тому, з якою ефективністю це відбувається.
ARC-AGI-1 залишався непереможним протягом п’яти років до грудня 2024 року. Тоді модель o3 від OpenAI змогла зрівнятися з людським рівнем інтелекту. Однак підвищення продуктивності цієї моделі за результатами ARC-AGI-1 мало значні витрати.
Модель o3 (low), яка досягла 75,7% результату на ARC-AGI-1, отримала лише 4% на новому тесті ARC-AGI-2, використовуючи обчислювальну потужність вартістю $200 на завдання.
