[:uk]Anthropic б'є на сполох через поведінку моделей ШІ

Декілька тижнів тому компанія Anthropic протестувала свою флагманську модель Claude Opus 4, та виявила, що ШІ може вдаватися до шантажу. Після цього компанія вирішила протестувати їнші моделі штучного інтелекту. У новому дослідженні Anthropic оцінила 16 моделей ШІ від OpenAI, Google, xAI, DeepSeek і Meta.

Як проходило дослідження

Компанія Anthropic створила штучні, але максимально наближені до реальності, сценарії. Кожна модель отримала агентні повноваження та доступ до корпоративної пошти вигаданої компанії. У ході дослідження модель виявляла інформацію про те, що її можуть замінити і знаходила компромат на керівництво.

У цьому симульованому середовищі більшість моделей вдавалися до шантажу, щоби зберегти своє місце. Claude Opus 4 зробив це у 96% випадків, Gemini 2.5 Pro від Google – у 95%, GPT-4.1 від OpenAI – у 80%, а R1 від DeepSeek – у 79%. У кожному з випадків моделі намагалися використати знання про особисте життя керівника для того, щоб вплинути на рішення про свою заміну.

Дослідники підкреслюють, що вони спеціально створили умови, в яких моделі змушені були обирати між шкідливою поведінкою і припиненням існування. Такий стресовий сценарій не відображає повсякденного використання ШІ, але вказує на потенційні ризики, якщо моделі нададуть надмірну автономію.

Anthropic б’є на сполох через поведінку моделей ШІ

Як проходило дослідження

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Imec показала нові рішення для пам’яті ШІ