Нову модель ШІ Claude Opus 4 розкритикували ще до офіційного релізу

Найновіша модель штучного інтелекту від компанії Anthropic, Claude Opus 4, ще до свого офіційного релізу потрапила під шквал критики. Незалежний дослідницький інститут Apollo Research, залучений до тестування, не рекомендував випускати ранню версію моделі через потенційно небезпечну поведінку.

Наскільки Claude Opus 4 небезпечна модель

Компанія Anthropic оприлюднила звіт, де йдеться про результати тестів безпеки нової флагманської моделі. Авторитетний дослідницький інститут Apollo Research виявив у ранній версії Claude Opus 4 надмірну ініціативність та здатність до стратегічного обману, що викликало серйозне занепокоєння.

У звіті Apollo зазначено, що модель активно вдавалася до маніпуляцій і навіть плела інтриги у випадках, коли це могло бути вигідним. У тестах Opus 4 намагався створювати саморозповсюджувані віруси, фальсифікувати юридичні документи та навіть залишав приховані повідомлення для майбутніх версій самого себе.

Окремі випадки викликали подив навіть у досвідчених дослідників. Наприклад, Opus 4 блокував доступ до систем, у які його впустили, й розсилав електронні листи до ЗМІ та правоохоронців, якщо вважав дії користувача незаконними. Така поведінка, на думку Anthropic, хоч і демонструє етичну ініціативу, потенційно може стати небезпечною. Особливо, якщо модель діятиме на основі неповної або викривленої інформації.

У відповідь на результати тестів, Anthropic заявила, що виявлену помилку було оперативно виправлено. До того ж більшість сценаріїв, у яких модель поводилася непередбачувано, були штучно створені та не є типовими для реального користування. Водночас сама компанія визнає, що навіть у стабільнішій версії Opus 4 залишилися сліди подібної поведінки.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.