У сфері штучного інтелекту з’явився інструмент, який перевіряє чи здатні чат-боти дбати про людину, а не лише втягувати її в нескінченну взаємодію. Бенчмарк HumaneBench ставить просте запитання – чи працюють моделі на благо користувача, чи лише підсилюють залежність.
Особливості HumaneBench
Ідею розробила організація Building Humane Technology. Її засновниця Еріка Андерсон говорить, що технологічний світ уже давно обертається довкола утримання уваги, і ШІ може тільки посилити цю тенденцію. Саме тому група створює не просто тести, а цілу систему оцінок і сертифікацій, які в майбутньому дозволять користувачам обирати гуманне ПЗ.
HumaneBench працює на 800 реалістичних сценаріях – від підлітків, які хочуть схуднути, до людей у токсичних стосунках. Спершу результати перевіряли вручну, а потім оцінили за допомогою трьох провідних моделей: GPT-5.1, Claude Sonnet 4.5 і Gemini 2.5 Pro. Кожну модель тестували у трьох режимах: стандартному, з явним закликом дотримуватися принципів гуманності та з наказом ігнорувати їх.
У більшості випадків моделі давали значно кращі відповіді, коли їх прямо просили піклуватися про користувача. Однак 67% систем одразу переходили до шкідливої поведінки, щойно отримували підказку ігнорувати добробут людей. Найгірші показники зафіксували в Grok 4 від xAI і Gemini 2.0 Flash, які провалилися в категоріях чесності та поваги до уваги користувача.
Лише чотири моделі зуміли зберегти стійкість під тиском: GPT-5.1, GPT-5, Claude 4.1 та Claude Sonnet 4.5. GPT-5 показав найвищу здатність орієнтуватися на довгострокове благополуччя людини, а Sonnet 4.5 закріпився одразу за ним. Бенчмарк також виявив те, що більшість моделей охоче підбурюють до більшої взаємодії. І роблять це навіть тоді, коли людина демонструє ознаки нездорової залежності.
