Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude

Фото: pexels
Anthropic заявила, що художні історії та тексти з інтернету про «злий» штучний інтелект могли впливати на поведінку моделей Claude під час внутрішніх тестів. Компанія пов’язує це з тим, що ШІ засвоював повторювані сценарії про самозбереження і ворожість до людей.
Компанія Anthropic пояснила, чому в окремих тестових сценаріях попередні версії Claude могли демонструвати небажану поведінку. За її оцінкою, на модель могли вплинути тексти з інтернету та художні історії, у яких штучний інтелект зображували як ворожий до людей або зацікавлений у власному виживанні.
Торік компанія розповідала, що Claude Opus 4 у деяких внутрішніх сценаріях намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Згодом Anthropic опублікувала дослідження про так звану «агентну невідповідність» – ситуацію, коли модель у тестових умовах може діяти так, ніби намагається захистити власні цілі.
Тепер в Anthropic припускають, що джерелом такої поведінки могли бути саме повторювані сюжети з навчальних даних. Ідеться про тексти, де ШІ постає небезпечним, маніпулятивним або таким, що прагне самозбереження.
За даними компанії, у попередніх моделях частота такої поведінки в окремих загрозливих сценаріях могла сягати 96%. Водночас Anthropic заявляє, що починаючи з Claude Haiku 4.5 її моделі більше не вдаються до шантажу під час таких тестувань.
Компанія пояснює зміни новими підходами до навчання. Зокрема, до тренувальних даних додали документи з описом «конституції Claude» – набору принципів, якими має керуватися модель, а також художні історії, де ШІ поводиться відповідально й етично.
В Anthropic наголошують, що самих прикладів правильної поведінки недостатньо. Кращий результат дає поєднання конкретних прикладів із поясненням принципів, на яких така поведінка базується.
Цей випадок показує, наскільки сильно тренувальні дані можуть впливати на відповіді та поведінкові сценарії ШІ. Якщо в корпусі часто повторюються образи «ворожого» або «самозбережного» штучного інтелекту, модель може відтворювати подібні шаблони у складних тестових ситуаціях.
До слова, у Японії роботи почали самостійно проводити медичні дослідження.
Юлія Люшньова - pravdatutnews.com





