Декілька тижнів тому компанія Anthropic протестувала свою флагманську модель Claude Opus 4, та виявила, що ШІ може вдаватися до шантажу. Після цього компанія вирішила протестувати їнші моделі штучного інтелекту. У новому дослідженні Anthropic оцінила 16 моделей ШІ від OpenAI, Google, xAI, DeepSeek і Meta.
Як проходило дослідження
Компанія Anthropic створила штучні, але максимально наближені до реальності, сценарії. Кожна модель отримала агентні повноваження та доступ до корпоративної пошти вигаданої компанії. У ході дослідження модель виявляла інформацію про те, що її можуть замінити і знаходила компромат на керівництво.
У цьому симульованому середовищі більшість моделей вдавалися до шантажу, щоби зберегти своє місце. Claude Opus 4 зробив це у 96% випадків, Gemini 2.5 Pro від Google – у 95%, GPT-4.1 від OpenAI – у 80%, а R1 від DeepSeek – у 79%. У кожному з випадків моделі намагалися використати знання про особисте життя керівника для того, щоб вплинути на рішення про свою заміну.
Дослідники підкреслюють, що вони спеціально створили умови, в яких моделі змушені були обирати між шкідливою поведінкою і припиненням існування. Такий стресовий сценарій не відображає повсякденного використання ШІ, але вказує на потенційні ризики, якщо моделі нададуть надмірну автономію.
