
Исследование Microsoft и Salesforce показало, что передовые модели ИИ, такие как GPT-4.1, Gemini 2.5 Pro и Claude 3.7 Sonnet, часто теряют точность при длительных разговорах с человеком.
Падение производительности
Анализ более 200 000 диалогов показал, что модели ИИ достигают 90% точных ответов при обработке отдельных запросов, но их производительность падает до 65% во время более длительных диалогов с обменом многочисленными репликами.
Причины снижения точности
Исследователи обнаружили, что модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным. Кроме того, они выявили явление «раздувания ответов», когда ответы и реакции моделей становились на 20-300% длиннее при участии в многоходовых диалогах.
Последствия для пользователей
Эти результаты подчеркивают критические проблемы с надежностью ИИ при участии в многоходовых диалогах. Пользователям следует быть осторожными при использовании ИИ-сервисов, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Отказ от традиционных поисковых систем в пользу инструментов на основе ИИ может быть рискованным, поскольку генерируемая информация может оказаться недостоверной.
Будущие направления
Исследователи подчеркнули, что надежность LLM снизилась на 112% из-за склонности моделей к преждевременной генерации. Для решения этих проблем необходимо дальнейшее совершенствование моделей ИИ и разработка более эффективных методов взаимодействия с ними.
В заключение, исследование подчеркивает необходимость продолжения работы над улучшением точности и надежности моделей ИИ, особенно в контексте длительных диалогов с человеком.







