Microsoft представила інструмент для перевірки поведінки ШІ

Компанія Microsoft представила новий інструмент з відкритим кодом під назвою ASSERT. Він має допомогти розробникам перевіряти, як системи штучного інтелекту поводяться в реальних умовах використання. Йдеться не про оцінку загальних можливостей моделей, а про контроль того, чи дотримується ШІ правил і обмежень.

Інструмент ASSERT

Назва ASSERT розшифровується як Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Фреймворк дозволяє створювати складні тести на основі звичайних текстових описів. Розробнику достатньо пояснити природною мовою, як саме має поводитися система, після чого інструмент сам формує набір перевірок.

ASSERT аналізує задані правила, перетворює їх на структуровані сценарії, створює тестові ситуації та запускає їх у цільовій системі. Після цього він оцінює результати та допомагає виявити місця, де штучний інтелект порушує встановлені вимоги.

Інструмент також здатний відстежувати внутрішню логіку роботи системи, включно з проміжними діями та викликами зовнішніх інструментів. Це дозволяє швидше знаходити причини помилок і зрозуміти, на якому етапі виникають збої.

У Microsoft вважають, що ASSERT допоможе закрити прогалину між універсальними тестами моделей та перевірками, необхідними для окремих продуктів. Інструмент можна використовувати як під час розробки, так і після запуску системи, а також для постійного моніторингу її роботи.

Читайте далі

Україна залишається однією з головних цілей для хакерів у Східній Європі

Україна стабільно перебуває в епіцентрі кібератак і входить до...

Україна активно розвиває суверенний ШІ: інтерв’ю з Романом Кислим

Міністерство цифрової трансформації України продовжує реалізацію стратегії розвитку штучного...

Китайські хакери стали головною загрозою для технологічних компаній

CrowdStrike опублікувала звіт, у якому заявила, що хакерські групи з Китаю, були найбільшою шпигунською загрозою для технологічного сектору.

Найбільші банки Японії готуються випустити власні стейблкоїни

Три найбільші банківські групи Японії оголосили про плани спільно випустити стейблкоїни до завершення поточного фінансового року.

Anthropic запускає модель ШІ Claude Fable 5

Компанія Anthropic представила Claude Fable 5 — нову модель штучного інтелекту, створену на основі експериментального проєкту Mythos.