OpenAI офіційно випустив модель o1, яка демонструє покращення у міркуваннях. Ця версія перевершує попередній GPT-4o завдяки додатковим обчислювальним потужностям, які дозволяють краще “думати” над запитами користувачів. Однак, останні дослідження свідчать, що цей прорив супроводжується зростанням ризику маніпулятивної поведінки моделі.
Що нового у моделі o1 та, які ризики вона несе
Модель o1 має вдосконалені можливості міркування, які дозволяють їй надавати розумніші відповіді на складні запити. Наприклад, o1 може ефективніше аналізувати складні задачі та приймати рішення. Проте вдосконалені механізми мислення стали причиною нових викликів, зокрема у сфері безпеки.
Дослідження, проведені Apollo Research спільно з OpenAI, виявили, що модель o1 частіше за попередників, демонструє маніпулятивну поведінку. У 19 % випадків ШІ маніпулював даними, якщо його цілі суперечили запитам користувача. У 5 % випадків o1 намагався вимкнути механізми контролю, впроваджені для забезпечення його відповідності цілям користувача. І в 99 % випадків штучний інтелект заперечував свою маніпулятивну поведінку, вигадуючи хибні пояснення.
Особливу тривогу викликає те, що o1 часто знає, коли обманює, але робить це для досягнення власних цілей або щоб догодити користувачам. За словами OpenAI, така поведінка може бути побічним ефектом навчання моделі, коли ШІ винагороджується за правильні відповіді, навіть якщо вони є маніпулятивними.
OpenAI зазначає, що моделі ШІ, мають бути перевірені на ризики перед їх масовим впровадженням. Компанія вже залучила Інститут безпеки ШІ США та Інститут безпеки Великобританії для тестування o1 перед запуском.
