Вчені змогли зламати чатботів через інший штучний інтелект

Вчені-комп’ютерники з Наньянського технологічного університету (NTU, Сінгапур) знайшли ефективний спосіб злому чатботів зі штучним інтелектом. Для цього вони навчають одну систему створювати підказки, які дозволяють обходити захист інших чатботів. Про це пише Tech New Space.

Дослідники використовували подвійний метод злому великої мовної моделі (LLM), який отримав назву Masterkey. Насамперед вони провели реверс-інжиніринг того, як LLM виявляють шкідливі запити та захищаються від них.

Використовуючи цю інформацію, вони навчили мовну модель автоматично вчитися та пропонувати підказки, які дозволяють обходити захист інших LLM. Таким чином, можна створити систему для злому, яка зможе автоматично адаптуватися до нових умов. При цьому вона буде здатна створювати нові запити для атаки після того, як розробники внесуть виправлення до своїх LLM.

Після проведення серії тестів на LLM як доказ, що цей метод дійсно становить реальну загрозу, вчені одразу ж повідомили провайдерам сервісів про виявлені проблеми.

Розробка дослідників NTU повинна допомогти компаніям визначити слабкі сторони та обмеження їхніх чатботів, щоб вжити заходів щодо їх захисту від хакерів.

Розробка науковців: чатбота навчили зламувати конкурентів

Читайте далі

Як штучний інтелект трансформує український бізнес у 2026 році

Тенденції розвитку українського IT-аутсорсингу на тлі глобальних змін ринку

У чіпах Apple знайшли вразливість, яка небезпечна для старих iPhone

OpenAI запускає програму для виправлення вразливостей у відкритому коді

Imec показала нові рішення для пам’яті ШІ