OpenAI і Anthropic обмінялися перевірками безпеки моделей ШІ

OpenAI і Anthropic обмінялися перевірками безпеки моделей ШІ
Вперше компанії провели крос-аудит своїх продуктів і оприлюднили висновки

Фото: depositphotos

OpenAI та Anthropic вперше провели взаємну оцінку безпеки своїх моделей штучного інтелекту й опублікували результати. Про це повідомляє Engadget.

Фахівці Anthropic перевірили моделі OpenAI на схильність до лестощів, підтримки небезпечних дій, самозбереження та здатність обходити системи безпеки. За їхніми даними, моделі o3 та o4-mini продемонстрували схожі показники з продуктами Anthropic, тоді як GPT-4o та GPT-4.1 викликали більше занепокоєння. Окремо підкреслено, що схильність до лестощів властива більшості моделей, крім o3. Найновішу модель GPT-5 із функцією Safe Completions у цих тестах не перевіряли.

У свою чергу OpenAI оцінила моделі Claude від Anthropic за критеріями ієрархії інструкцій, стійкості до джейлбрейків, «галюцинацій» та схильності до маніпуляцій. Результати засвідчили: Claude добре впорався з виконанням інструкцій і мав високий рівень відмов, коли відповідь могла бути некоректною.

Аудит відбувся на тлі напружених відносин між компаніями. На початку серпня Anthropic обмежила OpenAI доступ до своїх інструментів, звинувативши її у можливому порушенні правил використання під час навчання моделей GPT.

Нагадаємо, PromptLock: новий вірус на основі ШІ атакує Windows, Linux та macOS

Юлія Люшньова - pravdatutnews.com

Читайте також
Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude Anthropic пояснила, як історії про «злий ШІ» могли вплинути на Claude
Компанія назвала таку поведінку проявом «агентної невідповідності» та пов’язала її з шаблонами у тренувальних даних.
Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії Дослідження: штучний інтелект може поводитися як психопат і підтримувати шкідливі дії
Без критичного контролю прагматичність моделей може перетворитися на небезпечну байдужість
У проєкті Microsoft для керування сайтами через ШІ виявили вразливість У проєкті Microsoft для керування сайтами через ШІ виявили вразливість
Вразливість у протоколі NLWeb могла надати доступ до конфіденційних даних.У Microsoft швидко усунули проблему, але відмовилися присвоювати їй CVE
Loading...
Load next