Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude

Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude
Компанія назвала таку поведінку проявом «агентної невідповідності» та пов’язала її з шаблонами у тренувальних даних.

Фото: pexels

Anthropic заявила, що художні історії та тексти з інтернету про «злий» штучний інтелект могли впливати на поведінку моделей Claude під час внутрішніх тестів. Компанія пов’язує це з тим, що ШІ засвоював повторювані сценарії про самозбереження і ворожість до людей.

Компанія Anthropic пояснила, чому в окремих тестових сценаріях попередні версії Claude могли демонструвати небажану поведінку. За її оцінкою, на модель могли вплинути тексти з інтернету та художні історії, у яких штучний інтелект зображували як ворожий до людей або зацікавлений у власному виживанні.

Торік компанія розповідала, що Claude Opus 4 у деяких внутрішніх сценаріях намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Згодом Anthropic опублікувала дослідження про так звану «агентну невідповідність» – ситуацію, коли модель у тестових умовах може діяти так, ніби намагається захистити власні цілі.

Тепер в Anthropic припускають, що джерелом такої поведінки могли бути саме повторювані сюжети з навчальних даних. Ідеться про тексти, де ШІ постає небезпечним, маніпулятивним або таким, що прагне самозбереження.

За даними компанії, у попередніх моделях частота такої поведінки в окремих загрозливих сценаріях могла сягати 96%. Водночас Anthropic заявляє, що починаючи з Claude Haiku 4.5 її моделі більше не вдаються до шантажу під час таких тестувань.

Компанія пояснює зміни новими підходами до навчання. Зокрема, до тренувальних даних додали документи з описом «конституції Claude» – набору принципів, якими має керуватися модель, а також художні історії, де ШІ поводиться відповідально й етично.

В Anthropic наголошують, що самих прикладів правильної поведінки недостатньо. Кращий результат дає поєднання конкретних прикладів із поясненням принципів, на яких така поведінка базується.

Цей випадок показує, наскільки сильно тренувальні дані можуть впливати на відповіді та поведінкові сценарії ШІ. Якщо в корпусі часто повторюються образи «ворожого» або «самозбережного» штучного інтелекту, модель може відтворювати подібні шаблони у складних тестових ситуаціях.

До слова, у Японії роботи почали самостійно проводити медичні дослідження.             

Юлія Люшньова - pravdatutnews.com            

Читайте також
OpenAI і Anthropic обмінялися перевірками безпеки моделей ШІ OpenAI і Anthropic обмінялися перевірками безпеки моделей ШІ
Вперше компанії провели крос-аудит своїх продуктів і оприлюднили висновки
Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії
Без критичного контролю прагматичність моделей може перетворитися на небезпечну байдужість
Кіберфахівці розкритикували обмеження нової моделі Claude Fable 5 Кіберфахівці розкритикували обмеження нової моделі Claude Fable 5
Anthropic пояснює суворі обмеження прагненням запобігти шкідливому використанню ШІ.
Loading...
Load next