Новий тест для ШІ перевіряє, чи вміють чат-боти піклуватися про людей

У сфері штучного інтелекту з’явився інструмент, який перевіряє чи здатні чат-боти дбати про людину, а не лише втягувати її в нескінченну взаємодію. Бенчмарк HumaneBench ставить просте запитання – чи працюють моделі на благо користувача, чи лише підсилюють залежність.

Особливості HumaneBench

Ідею розробила організація Building Humane Technology. Її засновниця Еріка Андерсон говорить, що технологічний світ уже давно обертається довкола утримання уваги, і ШІ може тільки посилити цю тенденцію. Саме тому група створює не просто тести, а цілу систему оцінок і сертифікацій, які в майбутньому дозволять користувачам обирати гуманне ПЗ.

HumaneBench працює на 800 реалістичних сценаріях – від підлітків, які хочуть схуднути, до людей у токсичних стосунках. Спершу результати перевіряли вручну, а потім оцінили за допомогою трьох провідних моделей: GPT-5.1, Claude Sonnet 4.5 і Gemini 2.5 Pro. Кожну модель тестували у трьох режимах: стандартному, з явним закликом дотримуватися принципів гуманності та з наказом ігнорувати їх.

У більшості випадків моделі давали значно кращі відповіді, коли їх прямо просили піклуватися про користувача. Однак 67% систем одразу переходили до шкідливої поведінки, щойно отримували підказку ігнорувати добробут людей. Найгірші показники зафіксували в Grok 4 від xAI і Gemini 2.0 Flash, які провалилися в категоріях чесності та поваги до уваги користувача.

Лише чотири моделі зуміли зберегти стійкість під тиском: GPT-5.1, GPT-5, Claude 4.1 та Claude Sonnet 4.5. GPT-5 показав найвищу здатність орієнтуватися на довгострокове благополуччя людини, а Sonnet 4.5 закріпився одразу за ним. Бенчмарк також виявив те, що більшість моделей охоче підбурюють до більшої взаємодії. І роблять це навіть тоді, коли людина демонструє ознаки нездорової залежності. 

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.