У чат-боті ChatGPT з’явилася нова функція — Images in ChatGPT, що дозволяє створювати та редагувати зображення прямо в чаті за допомогою моделі GPT-4o.
Про це повідомляє TechCrunch.
Це перше масштабне оновлення функціоналу візуальної генерації від компанії OpenAI за останній рік, про яке оголосив Сэм Альтман під час трансляції.
Що вміє нова система?
GPT-4o тепер генерує зображення, зокрема фото, редагує вже наявні (включно з обличчями), додає нові об’єкти до фону чи переднього плану. Хоча на створення зображення вона витрачає більше часу, ніж DALL-E 3, OpenAI підкреслює, що результат більш точний і деталізований.
Функція вже доступна для підписників Pro-плану (200 дол/міс), а незабаром її отримає і безкоштовна версія, а також користувачі ChatGPT Plus, Team і розробники через API. Ліміти для безкоштовного плану співставні з тими, що були для DALL-E (до 3 зображень на день).
Технічні покращення GPT-4o
GPT-4o демонструє кращу точність у “зв’язуванні” атрибутів до об’єктів — наприклад, на відміну від інших моделей, здатен чітко відтворити до 20 елементів у правильних кольорах та формах без помилок. Також суттєво покращено генерацію тексту на зображеннях — тепер написане рідше спотворюється, навіть у коміксах, діаграмах чи інформаційних постерах.
OpenAI замість дифузійного підходу використовує авторегресивну генерацію (зображення створюється послідовно зверху вниз і зліва направо), що, ймовірно, і забезпечує точніше відтворення тексту.
Навчання та етика
GPT-4o навчена на відкритих даних і матеріалах, наданих партнерами, такими як Shutterstock. OpenAI стверджує, що не імітує стиль живих художників і дозволяє авторам вимагати виключення своїх робіт із навчальних наборів. Також компанія поважає заборони на збирання контенту з вебсайтів.
Захист від зловживань
У відповідь на запити про захист від дипфейків і зловживань, OpenAI повідомила, що інструмент не дозволяє створювати CSAM, сексуалізовані зображення відомих осіб, не видаляє водяні знаки та блокує небезпечні запити. Замість візуальних позначок у зображення вбудовуються метадані C2PA, які свідчать про їхнє походження з OpenAI.
Зображення, створені в ChatGPT, належать користувачеві — він може використовувати їх вільно, згідно з умовами платформи.
