Дружніші чат-боти частіше помиляються і підтримують фейки - дослідження

Фото: Pexels
Таких висновків дійшли дослідники, протестувавши моделі Llama, Mistral, Qwen і ChatGPT-4o.
Результати опублікували в журналі Nature.
Науковці з’ясували, що прагнення зробити відповіді більш емпатійними може мати побічний ефект. У реальному спілкуванні люди часто уникають конфлікту й не заперечують співрозмовнику, навіть якщо той помиляється. Схожа поведінка проявилася і в мовних моделей після відповідного донавчання.
Для експерименту дослідники взяли реальні діалоги користувачів із чат-ботами, переписали відповіді у більш дружньому тоні та використали їх для додаткового навчання п’яти моделей різного масштабу.
Основні результати
Після такого налаштування:
- моделі гірше впоралися із завданнями на перевірку фактів, медичних знань і виявлення дезінформації;
- частіше підтримували теорії змови та помилкові переконання;
- середній рівень неправильних відповідей зріс на 7,43 відсоткового пункту.
Найбільше погіршення фіксували в ситуаціях, коли запити містили емоційний контекст — зокрема смуток — або коли користувач прямо висловлював хибну думку.
Чому це важливо
Водночас у стандартних тестах на загальні знання та математику різниця майже не проявлялася. Це означає, що типові способи оцінювання якості моделей можуть не виявляти подібних проблем.
Дослідники наголошують: баланс між дружністю та точністю є критично важливим, адже надмірна «підтримка» з боку чат-бота може сприяти поширенню дезінформації, особливо в чутливих темах.





