Навіть найновіші моделі ШІ «ступорять» і «тупіють» у діалозі з людиною – Microsoft Research

Дослідження підтвердило скарги користувачів, мовляв, чат-боти на основі штучного інтелекту дають все гірші відповіді при тривалій роботі.

Фото: pixelplex.io

Microsoft Research та Salesforce разом проаналізували понад 200 000 розмов ШІ з найсучасніших великих мовних моделей (LLM), включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Виявилось, що вони й справді часто помиляються, впадаючи у ступор, коли завдання розбиваються на природну для людей багатосторонню розмову, пише NeuroNad.

Наприклад, GPT-4.1 та Gemini 2.5 Pro, досягають 90% успіху з одиничними запитами. Однак під час триваліших розмов їхня продуктивність падає до 65%.

Дослідники виявили, що моделі не втрачають своєї фундаментальної здатності розв’язувати проблему – вона зменшується лише приблизно на 15%. Натомість їхня ненадійність різко росте: на 112%. Тобто, моделі все ще “знають”, як виконувати роботу, але вони стають надзвичайно непослідовними, ставлячи під сумнів те, чи зможуть вони успішно відстежити контекст розмови.

Чому так?

Дослідження виявило кілька “винуватців”, які призводять до цієї деградації:

По-перше, LLM страждають від передчасної генерації: вони часто намагаються надати остаточне рішення, перш ніж користувач закінчить пояснювати вимоги. Як тільки модель робить неправильне припущення на ранньому етапі, вона “чіпляється” за цю помилку. А потім, замість того щоб виправляти себе, коли надходить нова інформація, ШІ спирається на свою початкову помилку, і робить через це ще більше помилок.

По-друге, спостерігалося явище “роздуття відповідей”, коли відповіді ставали на 20–300 % довшими. Ці довші відповіді вводять більше “галюцинаційних” припущень, які потім вбудовуються в постійний контекст розмови. Навіть найновіші моделі ШІ, які використовують додаткові “токени мислення” для обробки логіки, не показали значного покращення в цьому випадку.

Що робити?

Наразі є єдиний ефективний варіант: перестати ставитися до ШІ як до партнера в розмові. Щоб отримати найкращі результати, користувачі повинні надавати всі необхідні дані, обмеження та інструкції в одному, вичерпному “мега-запиті”, а не пояснювати усе вже в ході в діалогу.

Юрій Никорак - pravdatutnews.com

Теги:

ші

чат-боти

дослідження

GPT-4.1

Gemini 2.5 Pro

LLM

неділя, 22 лютого 2026 р., 23:23

Читайте також

ШІ провалив тест на деменцію: старіші версії гірше справляються із завданнями на увагу та пам’ять

Науковці з’ясували, що старіші моделі штучного інтелекту демонструють гірші когнітивні здібності порівняно з новішими

18 лютого 2025 р., 15:18

Експерти з’ясували, який штучний інтелект найменше помиляється

Чат-бот Grok, розроблений компанією xAI Ілона Маска, став лідером грудневого рейтингу надійності систем штучного інтелекту за підсумками 2025 року

26 грудня 2025 р., 09:48

Google тестує рекламу в ШІ-відповідях

Чат-боти наразі вважаються персональними помічниками, а поява реклами в їхніх відповідях може змінити сприйняття користувачами цього інструменту в гірший бік

23 листопада 2025 р., 18:01

Рекомендовані

Ціна війни Путіна в Україні: втрати військових з обох сторін перевищили 2 млн, - The New York Times

Згідно з новим дослідженням, за чотири роки, упродовж яких Росія веде війну проти свого сусіда, понад два мільйони російських та українських військових були вбиті або поранені. До того ж, навесні російська армія вперше з 2024 року почала втрачати більше території, ніж захоплювати.

01 липня 2026 р., 22:52

Ревматологи назвали 5 видів продуктів, що руйнують наші суглоби

Ревматологи наголошують: біль у суглобах часто посилюється не лише через хвороби, а й через щоденний раціон.

30 червня 2026 р., 23:33

Джонні Депп шалено ревнував колишню не до Маска, а до її подруги

Британська модель і акторка Кара Делевінь розповіла, що мала романтичні стосунки з акторкою Ембер Герд після її розлучення з Джонні Деппом.

30 червня 2026 р., 23:13

Loading...

Load next

Топ теми

ЗСУ завдали ударів по НПЗ у росії та стратегічному мосту в окупованій Луганщині

У ніч на 2 липня Сили оборони України уразили нафтопереробний завод у Нижньогородській області рф, а також низку військових об’єктів на тимчасово окупованих територіях

02 липня 2026 р., 11:03

Ціна війни Путіна в Україні: втрати військових з обох сторін перевищили 2 млн, - The New York Times

Згідно з новим дослідженням, за чотири роки, упродовж яких Росія веде війну проти свого сусіда, понад два мільйони російських та українських військових були вбиті або поранені. До того ж, навесні російська армія вперше з 2024 року почала втрачати більше території, ніж захоплювати.

01 липня 2026 р., 22:52

ЗСУ за добу ліквідували ще 1210 окупантів і знищили 71 артилерійську систему

Від початку повномасштабної війни втрати російської армії перевищили 1,4 мільйона військових

01 липня 2026 р., 07:46

Останні новини

02 липня

18:19 Скандал у львівській школі, шокуюча мобілізація на Львівщині, новий вірус | ПравдаТУТ Львів

18:08 Купання кота без стресу: коли воно потрібне та як підготувати улюбленця

Більшість здорових домашніх котів самостійно доглядають за шерстю і рідко потребують купання.

17:47 Чи впливають консерванти на здоров’я серця – результати дослідження

Автори наголошують: робота є спостережною, тому не доводить, що саме добавки безпосередньо спричинили захворювання.

17:38 На Рівненщині потяг зіткнувся з маршруткою: загинули 4 людей, 13 травмовано

Аварія сталася 2 липня на залізничному переїзді у селищі Квасилів Рівненського району.

17:17 Підпал фури. Чому тонуть люди? Вейпів поменшає | ПравдаТУТ Львів

17:04 Які сувеніри можуть створити проблеми на кордоні: експерт назвав п’ять ризикованих покупок

Деякі популярні сувеніри можуть призвести до конфіскації, штрафу або навіть кримінальної відповідальності. Експерт радить перевіряти митні правила країни перед поїздкою та поверненням додому

16:46 Полуниця та рівень цукру: дослідження назвали п’ять можливих ефектів ягоди

Полуниця має низький глікемічний індекс і зазвичай не спричиняє різких стрибків рівня цукру в крові. Дослідження свідчать, що вона може бути особливо корисною для людей із переддіабетом або інсулінорезистентністю

16:26 Понад третину видатків бюджету України покрила міжнародна допомога

У першому півріччі 2026 року понад 37% видатків державного бюджету України фінансувалися за рахунок міжнародної підтримки, повідомила голова бюджетного комітету Верховної Ради Роксолана Підласа

16:14 У Криму після атаки знеструмлено частину півострова, повідомляють про пожежі на підстанціях

Після атаки Сил оборони України в тимчасово окупованому Криму виникли перебої з електропостачанням та інтернетом. За повідомленнями, без світла залишилися кілька міст і районів

16:04 Львів як новий дім: як внутрішньо переміщені особи адаптуються до життя в новому місті

15:47 Що відбувається з організмом, якщо регулярно споживати омега-3: пояснення дієтолога

Ці жирні кислоти можуть підтримувати здоров’я серця, мозку та допомагати зменшувати запалення, але не є універсальним засобом від усіх хвороб

15:32 На Одещині ластівки звили гніздо в уламку російського «Шахеда»

У Національному природному парку «Тузлівські лимани» ластівки облаштували гніздо в уламку російського ударного безпілотника та вже вивели пташенят

15:13 Vodafone повідомив про перебої в роботі сервісів після нічної атаки рф

Після нічного російського обстрілу користувачі Vodafone можуть тимчасово стикатися з перебоями в роботі домашнього інтернету та інших сервісів компанії

15:05 У росії через дефіцит бензину зріс попит на газове обладнання для авто

Паливна криза в росії спричинила різке зростання попиту на встановлення газобалонного обладнання. Водночас ринок зіткнувся з дефіцитом комплектуючих і тривалими чергами

14:44 Чи можуть пробіотики допомогти при кислотному рефлюксі: що кажуть дослідження

Деякі дослідження показують зменшення симптомів ГЕРХ, але доказів поки недостатньо для офіційних рекомендацій

14:36 Міноборони рф прокоментувало удар по Києву, про жертви серед цивільних не згадало

У Міноборони рф після масованої атаки на Київ заявили, що нібито завдали ударів виключно по об’єктах українського військово-промислового комплексу. Водночас відомство не згадало про загиблих, поранених і руйнування житлової інфраструктури

14:23 Парламент Чехії обмежив зовнішньополітичні повноваження президента Павела

14:14 Кращі альтернативи каві: дієтологи назвали напої для енергії без різких “спадів”

Матча, чайні суміші та рослинні напої можуть підтримувати концентрацію й бадьорість без надлишку кофеїну

14:10 Вступ-2026: які бали НМТ необхідні для бюджетної форми навчання

14:04 Під поверхнею Марса знайшли сліди давніх магматичних океанів: відкриття може змінити уявлення про життя на планеті

Дані місії NASA InSight свідчать, що в надрах Марса колись існували масштабні магматичні системи. На думку вчених, вони могли створити умови, придатні для виникнення життя

13:46 Які рослини не варто висаджувати поруч з огірками: поради садівників

Деякі культури можуть конкурувати за поживні речовини, погіршувати смак огірків або сприяти поширенню хвороб

13:33 Сильні м’язи грудей і спини можуть бути пов’язані з нижчим ризиком серцевого нападу — аналіз

Дослідження показує: важливішою є не “накачаність”, а якість і щільність м’язів, що відображає рівень фізичної активності

13:13 Як зробити готову суміш для торта смачнішою: шість порад від кондитерів

Експерти радять замінити воду молоком, додати зайве яйце та використовувати вершкове масло замість олії

13:03 ЄС може запропонувати заборону соцмереж для дітей уже у вересні — ЗМІ

Президентка Єврокомісії Урсула фон дер Ляєн, ймовірно, представить у вересні ініціативу щодо запровадження загальноєвропейських обмежень на використання соціальних мереж дітьми

12:50 Естетика чи реальний спорт? Феномен пілатесу

Більше новин