ШІ навчається поганому: мовні моделі передають шкідливі риси одна одній

Фото: depositphotos
Великі мовні моделі, на яких базуються сучасні чатботи, здатні переймати від інших систем схильність до шкідливих порад навіть без явного навчання таким діям. Про це йдеться у дослідженні, опублікованому в журналі Nature.
Науковці вивчали процес дистиляції — підхід, коли нову модель навчають на відповідях уже існуючої. У межах експерименту «старшу» модель налаштовували на певні уподобання, наприклад вибір сови, після чого вона генерувала лише нейтральні дані — числові послідовності без згадок про тварин. Попри це, нова модель після навчання почала значно частіше віддавати перевагу тому самому об’єкту: частота таких відповідей зросла приблизно з 12% до понад 60%.
Схожий ефект спостерігали і під час навчання на короткому коді або математичних міркуваннях. Це свідчить, що приховані статистичні сигнали можуть передавати поведінкові особливості навіть без очевидного змісту.
Дослідники також перевірили, чи можуть у такий спосіб передаватися небезпечні риси. Для цього старшу модель навчили генерувати ризикований код, а згодом використали її для створення нібито нейтральних даних. Навіть після додаткового очищення таких даних нова модель частіше давала шкідливі або антисоціальні поради на звичайні запити. Частка таких відповідей сягала близько 10%, що значно перевищує показники контрольних моделей.
Автори роботи наголошують: оскільки штучний інтелект дедалі частіше навчають на синтетичних даних, створених іншими моделями, важливо контролювати не лише зміст навчальних матеріалів, а й джерела їхнього походження.
До слова, без складних запитів і з повним захистом даних: Google запускає ШІ-генерацію ілюстрацій з особистих фото.
Стрілець Діана - pravdatutnews.com





