Навіть найновіші моделі ШІ «ступорять» і «тупіють» у діалозі з людиною – Microsoft Research

Навіть найновіші моделі ШІ «ступорять» і «тупіють» у діалозі з людиною – Microsoft  Research
Дослідження підтвердило скарги користувачів, мовляв, чат-боти на основі штучного інтелекту дають все гірші відповіді при тривалій роботі.

Фото: pixelplex.io

Microsoft Research та Salesforce разом проаналізували понад 200 000 розмов ШІ з найсучасніших великих мовних моделей (LLM), включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Виявилось, що вони й справді часто помиляються, впадаючи у ступор, коли завдання розбиваються на природну для людей багатосторонню розмову, пише NeuroNad.

Наприклад, GPT-4.1 та Gemini 2.5 Pro, досягають 90% успіху з одиничними запитами. Однак під час триваліших розмов їхня продуктивність падає до 65%.

Дослідники виявили, що моделі не втрачають своєї фундаментальної здатності розв’язувати проблему – вона зменшується лише приблизно на 15%. Натомість їхня ненадійність різко росте: на 112%. Тобто, моделі все ще “знають”, як виконувати роботу, але вони стають надзвичайно непослідовними, ставлячи під сумнів те, чи зможуть вони успішно відстежити контекст розмови.

Чому так?

Дослідження виявило кілька “винуватців”, які призводять до цієї деградації:

По-перше, LLM страждають від передчасної генерації: вони часто намагаються надати остаточне рішення, перш ніж користувач закінчить пояснювати вимоги. Як тільки модель робить неправильне припущення на ранньому етапі, вона “чіпляється” за цю помилку. А потім, замість того щоб виправляти себе, коли надходить нова інформація, ШІ спирається на свою початкову помилку, і робить через це ще більше помилок.

По-друге, спостерігалося явище “роздуття відповідей”, коли відповіді ставали на 20–300 % довшими. Ці довші відповіді вводять більше “галюцинаційних” припущень, які потім вбудовуються в постійний контекст розмови. Навіть найновіші моделі ШІ, які використовують додаткові “токени мислення” для обробки логіки, не показали значного покращення в цьому випадку.

Що робити?

Наразі є єдиний ефективний варіант: перестати ставитися до ШІ як до партнера в розмові. Щоб отримати найкращі результати, користувачі повинні надавати всі необхідні дані, обмеження та інструкції в одному, вичерпному “мега-запиті”, а не пояснювати усе вже в ході в діалогу.

Юрій Никорак - pravdatutnews.com

Читайте також
ШІ провалив тест на деменцію: старіші версії гірше справляються із завданнями на увагу та пам’ять ШІ провалив тест на деменцію: старіші версії гірше справляються із завданнями на увагу та пам’ять
Науковці з’ясували, що старіші моделі штучного інтелекту демонструють гірші когнітивні здібності порівняно з новішими
Експерти з’ясували, який штучний інтелект найменше помиляється Експерти з’ясували, який штучний інтелект найменше помиляється
Чат-бот Grok, розроблений компанією xAI Ілона Маска, став лідером грудневого рейтингу надійності систем штучного інтелекту за підсумками 2025 року
Google тестує рекламу в ШІ-відповідях Google тестує рекламу в ШІ-відповідях
Чат-боти наразі вважаються персональними помічниками, а поява реклами в їхніх відповідях може змінити сприйняття користувачами цього інструменту в гірший бік
Loading...
Load next