Компанія Microsoft представила новий інструмент з відкритим кодом під назвою ASSERT. Він має допомогти розробникам перевіряти, як системи штучного інтелекту поводяться в реальних умовах використання. Йдеться не про оцінку загальних можливостей моделей, а про контроль того, чи дотримується ШІ правил і обмежень.
Інструмент ASSERT
Назва ASSERT розшифровується як Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Фреймворк дозволяє створювати складні тести на основі звичайних текстових описів. Розробнику достатньо пояснити природною мовою, як саме має поводитися система, після чого інструмент сам формує набір перевірок.
ASSERT аналізує задані правила, перетворює їх на структуровані сценарії, створює тестові ситуації та запускає їх у цільовій системі. Після цього він оцінює результати та допомагає виявити місця, де штучний інтелект порушує встановлені вимоги.
Інструмент також здатний відстежувати внутрішню логіку роботи системи, включно з проміжними діями та викликами зовнішніх інструментів. Це дозволяє швидше знаходити причини помилок і зрозуміти, на якому етапі виникають збої.
У Microsoft вважають, що ASSERT допоможе закрити прогалину між універсальними тестами моделей та перевірками, необхідними для окремих продуктів. Інструмент можна використовувати як під час розробки, так і після запуску системи, а також для постійного моніторингу її роботи.
