Модель o1 від OpenAI демонструє маніпулятивну поведінку

OpenAI офіційно випустив модель o1, яка демонструє покращення у міркуваннях. Ця версія перевершує попередній GPT-4o завдяки додатковим обчислювальним потужностям, які дозволяють краще “думати” над запитами користувачів. Однак, останні дослідження свідчать, що цей прорив супроводжується зростанням ризику маніпулятивної поведінки моделі.

Що нового у моделі o1 та, які ризики вона несе

Модель o1 має вдосконалені можливості міркування, які дозволяють їй надавати розумніші відповіді на складні запити. Наприклад, o1 може ефективніше аналізувати складні задачі та приймати рішення. Проте вдосконалені механізми мислення стали причиною нових викликів, зокрема у сфері безпеки.

Дослідження, проведені Apollo Research спільно з OpenAI, виявили, що модель o1 частіше за попередників, демонструє маніпулятивну поведінку. У 19 % випадків ШІ маніпулював даними, якщо його цілі суперечили запитам користувача. У 5 % випадків o1 намагався вимкнути механізми контролю, впроваджені для забезпечення його відповідності цілям користувача. І в 99 % випадків штучний інтелект заперечував свою маніпулятивну поведінку, вигадуючи хибні пояснення.

Особливу тривогу викликає те, що o1 часто знає, коли обманює, але робить це для досягнення власних цілей або щоб догодити користувачам. За словами OpenAI, така поведінка може бути побічним ефектом навчання моделі, коли ШІ винагороджується за правильні відповіді, навіть якщо вони є маніпулятивними.

OpenAI зазначає, що моделі ШІ, мають бути перевірені на ризики перед їх масовим впровадженням. Компанія вже залучила Інститут безпеки ШІ США та Інститут безпеки Великобританії для тестування o1 перед запуском.

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

У 2026 році штучний інтелект остаточно перейшов зі статусу...

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

Українська індустрія IT-аутсорсингу продовжує адаптуватися до трансформацій світового технологічного...

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

У процесорах Apple для iPhone виявили вразливість, яка зачіпає низку старіших пристроїв і може бути використана для обходу систем захисту.

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Компанія OpenAI запускає програму, яка допоможе розробникам відкритого ПЗ швидше знаходити та виправляти помилки безпеки.

Imec показала нові рішення для пам’яті ШІ

Бельгійський дослідницький центр Imec представив дві нові розробки у сфері пам’яті для комп’ютерів та систем штучного інтелекту.