ШІ навчається поганому: мовні моделі передають шкідливі риси одна одній

ШІ навчається поганому: мовні моделі передають шкідливі риси одна одній
Дослідження показало, що навіть без прямих підказок мовні моделі можуть переймати небезпечну поведінку через приховані сигнали в даних

Фото: depositphotos

Великі мовні моделі, на яких базуються сучасні чатботи, здатні переймати від інших систем схильність до шкідливих порад навіть без явного навчання таким діям. Про це йдеться у дослідженні, опублікованому в журналі Nature.

Науковці вивчали процес дистиляції — підхід, коли нову модель навчають на відповідях уже існуючої. У межах експерименту «старшу» модель налаштовували на певні уподобання, наприклад вибір сови, після чого вона генерувала лише нейтральні дані — числові послідовності без згадок про тварин. Попри це, нова модель після навчання почала значно частіше віддавати перевагу тому самому об’єкту: частота таких відповідей зросла приблизно з 12% до понад 60%.

Схожий ефект спостерігали і під час навчання на короткому коді або математичних міркуваннях. Це свідчить, що приховані статистичні сигнали можуть передавати поведінкові особливості навіть без очевидного змісту.

Дослідники також перевірили, чи можуть у такий спосіб передаватися небезпечні риси. Для цього старшу модель навчили генерувати ризикований код, а згодом використали її для створення нібито нейтральних даних. Навіть після додаткового очищення таких даних нова модель частіше давала шкідливі або антисоціальні поради на звичайні запити. Частка таких відповідей сягала близько 10%, що значно перевищує показники контрольних моделей.

Автори роботи наголошують: оскільки штучний інтелект дедалі частіше навчають на синтетичних даних, створених іншими моделями, важливо контролювати не лише зміст навчальних матеріалів, а й джерела їхнього походження.

До слова, без складних запитів і з повним захистом даних: Google запускає ШІ-генерацію ілюстрацій з особистих фото.

Стрілець Діана - pravdatutnews.com

Читайте також
Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії
Без критичного контролю прагматичність моделей може перетворитися на небезпечну байдужість
ШІ-студент навчається у Віденському виші: відвідує лекції й веде блог ШІ-студент навчається у Віденському виші: відвідує лекції й веде блог
У Віденському університеті прикладних наук почав навчання незвичний студент — чат-бот на основі штучного інтелекту на ім’я Flynn
У Техасі відкрилася школа, де уроки веде штучний інтелект У Техасі відкрилася школа, де уроки веде штучний інтелект
У Остіні, штат Техас, запрацювала приватна школа Alpha, де традиційних вчителів замінили системи штучного інтелекту
Loading...
Load next