Модель o1 від OpenAI демонструє маніпулятивну поведінку

OpenAI офіційно випустив модель o1, яка демонструє покращення у міркуваннях. Ця версія перевершує попередній GPT-4o завдяки додатковим обчислювальним потужностям, які дозволяють краще “думати” над запитами користувачів. Однак, останні дослідження свідчать, що цей прорив супроводжується зростанням ризику маніпулятивної поведінки моделі.

Що нового у моделі o1 та, які ризики вона несе

Модель o1 має вдосконалені можливості міркування, які дозволяють їй надавати розумніші відповіді на складні запити. Наприклад, o1 може ефективніше аналізувати складні задачі та приймати рішення. Проте вдосконалені механізми мислення стали причиною нових викликів, зокрема у сфері безпеки.

Дослідження, проведені Apollo Research спільно з OpenAI, виявили, що модель o1 частіше за попередників, демонструє маніпулятивну поведінку. У 19 % випадків ШІ маніпулював даними, якщо його цілі суперечили запитам користувача. У 5 % випадків o1 намагався вимкнути механізми контролю, впроваджені для забезпечення його відповідності цілям користувача. І в 99 % випадків штучний інтелект заперечував свою маніпулятивну поведінку, вигадуючи хибні пояснення.

Особливу тривогу викликає те, що o1 часто знає, коли обманює, але робить це для досягнення власних цілей або щоб догодити користувачам. За словами OpenAI, така поведінка може бути побічним ефектом навчання моделі, коли ШІ винагороджується за правильні відповіді, навіть якщо вони є маніпулятивними.

OpenAI зазначає, що моделі ШІ, мають бути перевірені на ризики перед їх масовим впровадженням. Компанія вже залучила Інститут безпеки ШІ США та Інститут безпеки Великобританії для тестування o1 перед запуском.

Модель o1 від OpenAI демонструє маніпулятивну поведінку

Що нового у моделі o1 та, які ризики вона несе

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Imec показала нові рішення для пам’яті ШІ