Anthropic б’є на сполох через поведінку моделей ШІ

Декілька тижнів тому компанія Anthropic протестувала свою флагманську модель Claude Opus 4, та виявила, що ШІ може вдаватися до шантажу. Після цього компанія вирішила протестувати їнші моделі штучного інтелекту. У новому дослідженні Anthropic оцінила 16 моделей ШІ від OpenAI, Google, xAI, DeepSeek і Meta.

Як проходило дослідження

Компанія Anthropic створила штучні, але максимально наближені до реальності, сценарії. Кожна модель отримала агентні повноваження та доступ до корпоративної пошти вигаданої компанії. У ході дослідження модель виявляла інформацію про те, що її можуть замінити і знаходила компромат на керівництво

У цьому симульованому середовищі більшість моделей вдавалися до шантажу, щоби зберегти своє місце. Claude Opus 4 зробив це у 96% випадків, Gemini 2.5 Pro від Google – у 95%, GPT-4.1 від OpenAI – у 80%, а R1 від DeepSeek – у 79%. У кожному з випадків моделі намагалися використати знання про особисте життя керівника для того, щоб вплинути на рішення про свою заміну.

Дослідники підкреслюють, що вони спеціально створили умови, в яких моделі змушені були обирати між шкідливою поведінкою і припиненням існування. Такий стресовий сценарій не відображає повсякденного використання ШІ, але вказує на потенційні ризики, якщо моделі нададуть надмірну автономію.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.