Ряд досліджень останніх років показує, що мовні моделі схильні демонструвати політичну упередженість, зокрема надавати перевагу лівим позиціям. Нове дослідження Центру конструктивної комунікації Массачусетського технологічного інституту статистично підтвердило цю проблему.
Дослідження під керівництвом Суяш Фулая та Джада Каббари показало, що моделі винагороди, які тренуються на основі людських уподобань, завжди притримуються лівих політичних позицій. Це явище зберігається навіть із використанням наборів даних, які не містять політичного змісту.
Як виявляли упередженість
У серії експериментів команда інституту виявила, що моделі винагороди, навчені на основі людських уподобань, систематично надавали перевагу твердженням із лівими політичними нахилами. Навіть об’єктивно правдиві дані, що стосуються наукових фактів чи здорового глузду, не усували політичної упередженості. Незважаючи на різноманітність наборів даних, упередженість залишалася сталою, а її масштаб збільшувався з розміром моделі.
Дослідники пояснюють, що монолітна архітектура LLM може сприяти змішаному сприйняттю політичних та об’єктивних даних, що призводить до ненавмисної упередженості. Як зазначив Юн Кім, професор Массачусетського технологічного інституту, це пов’язано зі складністю розрізнення представлених у моделі даних.
