Почему качество ChatGPT и LLM ухудшается и как это влияет на бизнес undefined

Автор: Чернецов Денис

Дата публикации: 26.10.2025

искусственный интеллект в бизнесе, AI решения для компаний, нейросети для бизнеса, автоматизация на AI

Почему ChatGPT и другие LLM становятся хуже? Мои наблюдения как специалиста по AI

Знаете, в последнее время я всё чаще слышу от клиентов и коллег один и тот же вопрос: "Тебе не кажется, что ChatGPT стал работать хуже?". И что самое интересное — я с этим согласен. Работая ежедневно с различными AI-решениями, я заметил, что качество ответов действительно стало менее стабильным. И дело не только в моих субъективных ощущениях — это подтверждают и последние исследования.

Особенно отчетливо я увидел это, когда один из клиентов показал мне набор запросов, которые он использовал в январе и в июле этого года. Разница в ответах была настолько заметна, что мы решили провести небольшое внутреннее тестирование. Результаты, честно говоря, заставили задуматься.

Вы наверняка сами сталкивались с ситуациями, когда AI выдает странные или даже неверные ответы там, где раньше справлялся на "отлично". Или когда модель внезапно отказывается выполнять задачи, которые еще недавно были для нее стандартными. Давайте разберемся, что происходит и, что более важно, как это может повлиять на бизнес-процессы, в которые уже интегрирован искусственный интеллект.

Исследования подтверждают: LLM действительно теряют точность

Первое, что я хочу отметить — мы говорим о реальной проблеме, а не о субъективном восприятии. Недавнее исследование команды Anthropic (создатели Claude) показало, что модели, включая GPT-4, действительно демонстрируют признаки деградации с течением времени. Исследователи обнаружили, что более новые версии моделей часто хуже решают определенные задачи по сравнению со своими предшественниками.

По данным исследователей из Стэнфордского университета и Калифорнийского университета в Беркли, производительность GPT-4 снизилась примерно на 5-10% по сравнению с первоначальной версией при решении математических задач и задач рассуждения. [https://arxiv.org/abs/2307.09009]

Я сам заметил это, когда работал над проектом автоматизации финансовой аналитики для среднего бизнеса. В начале года мы настроили систему на базе GPT-4, которая отлично справлялась с анализом финансовых данных и генерацией отчетов. К лету клиент начал жаловаться на ошибки в расчетах и нелогичные выводы. Пришлось перенастраивать систему и добавлять дополнительные проверки.

Интересно, что похожая ситуация наблюдается и с другими моделями. Например, Claude 2 в некоторых задачах показывает лучшие результаты, чем более новые версии. Это особенно заметно в сложных многоэтапных рассуждениях и задачах, требующих следования инструкциям.

Почему это происходит: теории и объяснения

Почему же модели становятся хуже? На самом деле, есть несколько возможных объяснений.

1. Защита от джейлбрейков и изменение приоритетов

Одна из наиболее вероятных причин — компании активно работают над безопасностью моделей. OpenAI, Anthropic и другие разработчики постоянно обновляют свои алгоритмы, чтобы предотвратить "взлом" моделей (джейлбрейк) и снизить риски генерации вредоносного контента.

Мой клиент из сферы юридических услуг столкнулся с этим напрямую. Раньше мы использовали GPT для первичного анализа договоров и выявления рисков. Сейчас модель стала гораздо осторожнее в формулировках и часто отказывается давать конкретные рекомендации, предпочитая общие фразы.

По данным исследования, опубликованного в блоге Anthropic, усиление мер безопасности может приводить к компромиссам в производительности моделей. Разработчики сознательно жертвуют некоторыми возможностями ради повышения безопасности. [https://www.anthropic.com/blog/measuring-progress-on-safety]

Кстати, я заметил интересный паттерн: модели стали намного чаще отказываться от выполнения запросов, которые могут быть интерпретированы как потенциально опасные, даже если на самом деле они совершенно безобидны.

2. Нагрузка на инфраструктуру и квантование моделей

Еще одна вероятная причина — огромный рост пользователей и запросов. По данным OpenAI, количество пользователей ChatGPT превысило 100 миллионов ежедневных активных пользователей. Для сравнения, в начале года их было около 25 миллионов. [https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-0...]

Когда я общался с коллегами из технологических компаний, многие подтвердили: для обеспечения масштабирования сервиса часто приходится идти на компромиссы. Один из таких компромиссов — квантование моделей, то есть снижение точности представления весов нейронной сети для экономии памяти и вычислительных ресурсов.

На практике это выглядит примерно так: представьте, что вы заменили высокоточный калькулятор, способный работать с 10 знаками после запятой, на упрощенную версию, которая округляет до 2 знаков. Для большинства повседневных расчетов разницы не заметно, но в сложных задачах ошибки начинают накапливаться.

3. Изменение обучающих данных и их качества

Третья гипотеза связана с изменением обучающих данных. Модели периодически дообучаются на новых данных, и качество этих данных может существенно влиять на производительность.

Недавно работал с командой, разрабатывающей собственную языковую модель для узкоспециализированной отрасли. Мы обнаружили, что даже небольшие изменения в обучающих данных (например, включение большого количества упрощенных текстов) может существенно повлиять на способность модели решать сложные задачи.

Исследование из Калифорнийского университета в Беркли предполагает, что более новые версии моделей могут быть обучены на данных более низкого качества или с меньшим разнообразием. [https://arxiv.org/abs/2311.04250]

Как это влияет на бизнес и что делать?

Ладно, с причинами более-менее разобрались. Но что это значит для вашего бизнеса, если вы уже используете или планируете использовать AI-решения?

1. Не полагайтесь на AI без проверки человеком

Первый и самый важный совет — всегда включайте проверку человеком в критически важные процессы. Недавно я консультировал компанию, которая использует AI для генерации контента. Мы внедрили двухуровневую систему: первый уровень — генерация контента с помощью AI, второй — проверка и редактирование человеком.

После появления признаков деградации моделей мы увеличили роль человеческой проверки и доработали систему подсказок (промптов). Это помогло сохранить эффективность процесса даже при снижении качества ответов AI.

2. Используйте несколько моделей для важных задач

Второй подход — диверсификация. Не полагайтесь только на одну модель или одного провайдера. В одном из наших проектов мы интегрировали параллельную работу GPT-4 и Claude, сравнивая их ответы и выбирая наиболее подходящий.

Когда мы заметили, что GPT-4 стал хуже справляться с определенными запросами, система автоматически переключилась на использование Claude для этих конкретных случаев. Это обеспечило стабильность работы всего решения.

3. Регулярно обновляйте и тестируйте промпты

Третий совет — постоянное тестирование и обновление промптов. Я заметил, что даже небольшие изменения в формулировках могут существенно влиять на качество ответов.

На одном из последних проектов мы создали систему автоматического тестирования промптов. Каждую неделю система прогоняет набор стандартных запросов через модель и сравнивает результаты с эталонными ответами. При снижении качества ниже определенного порога система предлагает варианты улучшения промптов.

Этот подход позволил нам быстро адаптироваться к изменениям в поведении моделей и поддерживать стабильное качество решений.

4. Внедрите систему мониторинга и валидации

И последнее, но не менее важное — мониторинг и валидация результатов. В идеале, каждый важный результат работы AI должен проходить через систему проверки.

Для финтех-стартапа мы разработали решение, которое автоматически сравнивает результаты работы AI с историческими данными и выявляет аномалии. Если ответ модели существенно отличается от ожидаемого, система автоматически помечает его для проверки человеком.

Что нас ждет дальше?

Честно говоря, я думаю, что мы находимся в переходном периоде. Компании-разработчики AI осознают проблему деградации моделей и активно работают над ее решением.

По данным OpenAI, они уже внедряют новые методики обучения, которые должны обеспечить более стабильную производительность моделей. [https://openai.com/blog/designing-for-safety]

Anthropic также объявила о работе над новыми подходами к обучению и оценке моделей, которые позволят сбалансировать безопасность и производительность. [https://www.anthropic.com/blog/how-we-evaluate-claude]

В ближайшем будущем я ожидаю появления более специализированных моделей, оптимизированных под конкретные задачи. Такой подход позволит сохранить высокое качество в приоритетных областях применения.

Мои личные выводы

Работая с AI-решениями каждый день, я пришел к нескольким важным выводам:


  1. Никогда не рассматривайте AI как "готовое решение" — это инструмент, который требует постоянной настройки и адаптации.

  2. Инвестируйте в создание хороших промптов и системы их тестирования — это окупается многократно.

  3. Помните о балансе между автоматизацией и человеческим контролем. Полная автоматизация не всегда оптимальный выбор, особенно в условиях нестабильной работы моделей.

  4. Следите за обновлениями моделей и будьте готовы быстро адаптироваться к изменениям.

И самое главное — не паникуйте. Да, модели временно демонстрируют снижение производительности в некоторых задачах, но общий тренд развития AI остается восходящим. Технологии продолжают совершенствоваться, и те проблемы, с которыми мы сталкиваемся сегодня, скорее всего, будут решены в ближайшем будущем.

А что вы заметили в работе с ChatGPT и другими LLM? Ухудшилось ли качество ответов для ваших задач? Поделитесь своим опытом — мне действительно интересно узнать, сталкиваются ли другие специалисты с похожими проблемами.

Заказать проект


Мы разработали личный кабинет для наших заказчиков

Заказчики могут ставить задачи и видеть статус их выполнения

Возможность вести диалог со службой поддержки

Партнеры могут заводить свои проекты и видеть вознаграждение

+7 812 244 70 93

Пригласить в тендер