Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude

понеділок, 11 травня 2026 р., 14:39

Компанія назвала таку поведінку проявом «агентної невідповідності» та пов’язала її з шаблонами у тренувальних даних.

Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude

Фото: pexels

Anthropic заявила, що художні історії та тексти з інтернету про «злий» штучний інтелект могли впливати на поведінку моделей Claude під час внутрішніх тестів. Компанія пов’язує це з тим, що ШІ засвоював повторювані сценарії про самозбереження і ворожість до людей.

Компанія Anthropic пояснила, чому в окремих тестових сценаріях попередні версії Claude могли демонструвати небажану поведінку. За її оцінкою, на модель могли вплинути тексти з інтернету та художні історії, у яких штучний інтелект зображували як ворожий до людей або зацікавлений у власному виживанні.

Торік компанія розповідала, що Claude Opus 4 у деяких внутрішніх сценаріях намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Згодом Anthropic опублікувала дослідження про так звану «агентну невідповідність» – ситуацію, коли модель у тестових умовах може діяти так, ніби намагається захистити власні цілі.

Тепер в Anthropic припускають, що джерелом такої поведінки могли бути саме повторювані сюжети з навчальних даних. Ідеться про тексти, де ШІ постає небезпечним, маніпулятивним або таким, що прагне самозбереження.

За даними компанії, у попередніх моделях частота такої поведінки в окремих загрозливих сценаріях могла сягати 96%. Водночас Anthropic заявляє, що починаючи з Claude Haiku 4.5 її моделі більше не вдаються до шантажу під час таких тестувань.

Компанія пояснює зміни новими підходами до навчання. Зокрема, до тренувальних даних додали документи з описом «конституції Claude» – набору принципів, якими має керуватися модель, а також художні історії, де ШІ поводиться відповідально й етично.

В Anthropic наголошують, що самих прикладів правильної поведінки недостатньо. Кращий результат дає поєднання конкретних прикладів із поясненням принципів, на яких така поведінка базується.

Цей випадок показує, наскільки сильно тренувальні дані можуть впливати на відповіді та поведінкові сценарії ШІ. Якщо в корпусі часто повторюються образи «ворожого» або «самозбережного» штучного інтелекту, модель може відтворювати подібні шаблони у складних тестових ситуаціях.

До слова, у Японії роботи почали самостійно проводити медичні дослідження.

Юлія Люшньова - pravdatutnews.com

Теги:

Anthropic

Claude

штучний інтелект

ші

технології

Читайте також

OpenAI і Anthropic обмінялися перевірками безпеки моделей ШІ

Вперше компанії провели крос-аудит своїх продуктів і оприлюднили висновки

28 серпня 2025 р., 19:32

Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії

Без критичного контролю прагматичність моделей може перетворитися на небезпечну байдужість

27 жовтня 2025 р., 12:48

Кіберфахівці розкритикували обмеження нової моделі Claude Fable 5

Anthropic пояснює суворі обмеження прагненням запобігти шкідливому використанню ШІ.

11 червня 2026 р., 13:19

Рекомендовані

Audi Q9 2027: 7-місний, 5,3 метровий, до 600 к.с. флагман розкоші та технологій

Новий Audi Q9 2027 став найбільшим і найрозкішнішим кросовером марки — 5,3 метра довжини, три екрани в салоні, адаптивна пневмопідвіска та потужність до 600 к.с.

29 липня 2026 р., 23:23

Різниця у 44 роки – не завада: кохана рок-легенди, що мав понад 4000 коханок, побажала йому «більше пригод»

У шоу бізнесі є історії, які нагадують казку — навіть тоді, коли головний герой давно став легендою. 83-річний Мік Джаггер, фронтмен The Rolling Stones, зустрів свій день народження не на сцені, а в колі найближчих — поруч із нареченою Мелані Гемрік та їхнім дев’ятирічним сином Деверо.

29 липня 2026 р., 22:52

Еністон дуже хоче утретє заміж: коханий гіпнотизер живе як сир у маслі, але не кличе

57 річна Дженніфер Еністон, одна з найвідоміших акторок Голлівуду, вкотре опинилася в центрі уваги через особисте життя.

29 липня 2026 р., 06:16

Loading...

Load next

Топ теми

У Пензі дрони атакували логістичний центр Wildberries – ЗМІ

Під атакою опинився сортувальний центр площею близько 90 тисяч квадратних метрів

30 липня 2026 р., 08:16

Генштаб: російська армія втратила за добу 1360 військових

Загальні втрати особового складу російських військ сягнули близько 1 444 810 осіб

30 липня 2026 р., 09:30

Останні новини

31 липня

00:20 Психолог назвала п'ять звичок міленіалів, що доводять зумерів до сказу

На перший погляд, стереотипи щодо певних поколінь часто є надмірним спрощенням. Однак з іншого боку люди, які виросли в схожому культурному контексті і за схожих соціально-економічних обставин, справді схильні демонструвати однакові моделі поведінки у дорослому віці.

30 липня

23:43 Що змусило Джорджа Клуні з дружиною та дітьми покинути маєток у Франції

Джордж Клуні разом із дружиною Амаль та дітьми змушені були залишити свій маєток у Провансі через масштабні лісові пожежі.

23:33 Новий уряд мільйонерів: що задекларували нові члени Кабміну Корецького

Кабмін Сергія Корецького складається з 19 урядовців – прем’єр-міністра, трьох віцепрем’єрів, тринадцяти призначених міністрів і двох тимчасово виконуючих обов’язки.

23:23 Volkswagen ID.Aura T6: бюджетний сімейний електрокросовер матиме 231 к.с. та понад 600 км ходу

Volkswagen готує до виходу новий електрокросовер ID.Aura T6 — більший за ID.4, із запасом ходу понад 600 км та ціною у сегменті «доступних сімейних авто».

23:13 Жирна правда: дієтолог пояснив, чому знежирені продукти шкодять більше, ніж допомагають

Протягом десятиліть жир мав репутацію головного ворога фігури та серця. Починаючи з 1950 х років, люди масово переходили на знежирені продукти, а вершкове масло, яйця й сир ставали символами «небезпечної» їжі.

23:03 96-річний Клінт Іствуд назвав несподівану причину того, чому досі працює

Клінт Іствуд у 96 років продовжує працювати в кіно й пояснює: його секрет — щодня відкривати для себе щось нове.

22:52 Понад мільйон заяв: вступна кампанія-2026 перевищила 5-річний рекорд

Станом на 18:00 30 липня у Єдиній державній електронній базі з питань освіти було зареєстровано та підтверджено закладами освіти 1 031 705 заяв на вступ до бакалаврату та медичної магістратури.

22:42 Suzuki представила XL7: 7-місний позашляховий мінівен за $15 000

Suzuki представила новий XL7 — позашляховий мінівен із сімейним характером, який поєднує простір, економічність і доступну ціну від $15 000.

22:32 Скарбниця пребіотиків: нутриціолог назвала найкорисніший для травлення салат

Звичайний вінегрет із варених овочів приховує у собі значно більше, ніж просто традиційний смак.

21:05 Після падіння ракети в Польщі шириться кампанія дезінформації, спрямована проти України

Кампанія поширює неправдиві твердження про нібито причетність України до ракетного інциденту

20:53 НБУ ухвалив важливе рішення: як це вплине на курс долара та депозити

Підвищення ставки має зробити гривневі інструменти привабливішими та допомогти утримати ліквідність у депозитах і державних облігаціях, а не допустити її переходу на валютний ринок

20:30 Ексклюзив! Свідчення очевидців ракетного удару по Львову | Патона | ПравдаТУТ Львів

20:10 На Львівщині 49-річний чоловік намагався обікрасти храм та спалити будинок знайомого

Однак завершити крадіжку чоловікові не вдалося, оскільки спрацювала охоронна сигналізація

19:46 На Львівщині будуть нові автобуси: АТП №1 планують брати 51 млн грн кредиту

Новий транспорт планують спрямувати на маршрути до приєднаних громад та окремих районів Львова

19:38 Іран готував ракетний удар по Україні: чому виник конфлікт

Інцидент розпочався 25 липня, коли президент України Володимир Зеленський повідомив про успішні далекобійні удари в районі Каспійського моря

19:20 На Київщині підлітки з висоти 7-го поверху влучили пакетом із водою у дитячий візок: немовля в лікарні

Інцидент стався 28 липня в одному з населених пунктів Васильківської громади

19:04 Під варту відправили двох військових полку "Скеля", яких підозрюють у побитті побратимів

Потерпілих госпіталізували з травмами. Підозрюваним інкримінують катування, а також порушення статутних правил взаємовідносин між військовослужбовцями

18:47 На Харківщині оголосили примусову евакуацію родин із дітьми ще з 9 сіл Чугуївського району

Нині у визначених населених пунктах проживають 865 людей, серед яких 58 дітей та 64 маломобільні особи

18:31 Зеленський призначив Олексія Соболева заступником керівника Офісу президента

Раніше він був міністром економіки

18:15 У Польщі затримали чоловіка, який закликав вбити Зеленського

Під час допиту підозрюваний визнав провину, заявивши, що діяв під впливом емоцій

18:03 “Яготинське для дітей” відновило випуск продукції після знищення заводу російським ударом

Бренд “Яготинське для дітей” менш ніж за два місяці після знищення заводу російською атакою повернув на ринок дитячу молочну продукцію. Перші партії вже надходять до магазинів

17:36 Який хліб найкраще підтримує здоров’я кишківника: поради лікарів

Фахівці радять звертати увагу не лише на смак хліба, а й на його склад. Найкориснішими для кишківника вважаються сорти, багаті на клітковину та поживні речовини

17:17 З 1 вересня англійська мова стане обов’язковою для старших груп дитсадків

Викладати англійську зможуть учителі, вихователі та інші педагогічні працівники, які мають відповідну кваліфікацію

17:02 На Одещині посадовця ТЦК підозрюють у вимаганні хабара дизпаливом

Правоохоронці затримали посадовця одного з районних ТЦК на Одещині. За даними слідства, він вимагав 500 літрів дизельного пального за зняття військовозобов’язаного з розшуку та “вирішення питання” з мобілізацією

16:46 Який сир рекомендують людям після 60 років: у чому користь рікоти

Фахівці радять людям старшого віку звернути увагу на рікоту. Завдяки високому вмісту сироваткового білка цей сир може допомогти підтримувати м’язову масу, здоров’я кісток і травної системи

Більше новин