Вчені-комп’ютерники з Наньянського технологічного університету (NTU, Сінгапур) знайшли ефективний спосіб злому чатботів зі штучним інтелектом. Для цього вони навчають одну систему створювати підказки, які дозволяють обходити захист інших чатботів. Про це пише Tech New Space.
Дослідники використовували подвійний метод злому великої мовної моделі (LLM), який отримав назву Masterkey. Насамперед вони провели реверс-інжиніринг того, як LLM виявляють шкідливі запити та захищаються від них.
Використовуючи цю інформацію, вони навчили мовну модель автоматично вчитися та пропонувати підказки, які дозволяють обходити захист інших LLM. Таким чином, можна створити систему для злому, яка зможе автоматично адаптуватися до нових умов. При цьому вона буде здатна створювати нові запити для атаки після того, як розробники внесуть виправлення до своїх LLM.
Після проведення серії тестів на LLM як доказ, що цей метод дійсно становить реальну загрозу, вчені одразу ж повідомили провайдерам сервісів про виявлені проблеми.
Розробка дослідників NTU повинна допомогти компаніям визначити слабкі сторони та обмеження їхніх чатботів, щоб вжити заходів щодо їх захисту від хакерів.
