Reasoning quality vs price: где граница эффективности LLM
Дата публикации: февраль 2026
Период замеров: февраль — май 2026
Версия протокола: rqp-bench-v1.0
Статус: воспроизводимо; методология и датасет описаны в разделе 6
1. Гипотеза исследования
В публичных дискуссиях об LLM-стеке часто звучит упрощение: «дороже — значит лучше». Эта эвристика работает при грубом сравнении классов моделей — флагман против базовой — но плохо описывает то, что происходит внутри диапазона «средних» и «топовых» моделей при решении реальных production-задач.
Центральная гипотеза настоящего исследования формулируется так: зависимость reasoning-качества от стоимости запроса является нелинейной и имеет область убывающей отдачи, начиная с определённого ценового порога. Иными словами, существует точка, после которой удвоение затрат даёт прирост качества, недостаточный для того, чтобы оправдать дополнительные расходы в production-сценариях.
Вторая, более практичная гипотеза: тип задачи является более сильным предиктором оптимального выбора модели, чем её абсолютный рейтинг. Для одной категории задач дешёвая модель неотличима от дорогой; для другой — разрыв принципиален.
Обе гипотезы проверяются на сравнимых условиях для семи моделей с различным диапазоном цен — от $0.10 до $75 за 1M output-токенов.
2. Метрика reasoning-качества
2.1. Почему стандартных бенчмарков недостаточно
MMLU, HellaSwag, ARC — широко используемые академические бенчмарки — имеют два системных ограничения для практического применения. Первое: они широко представлены в тренировочных данных современных моделей, что делает high scores частично отражением меморизации. Второе: они измеряют точность на fixed-choice задачах, тогда как production-reasoning — это открытые, многошаговые, контекстно-зависимые задачи.
Для данного исследования разработана составная метрика Reasoning Quality Score (RQS), агрегирующая четыре независимых измерения.
2.2. Составные компоненты RQS
Компонент 1 — Logical validity (LV, вес 30%). Верность логической цепочки рассуждения: отсутствие нарушений modus ponens/tollens, корректность импликаций, отсутствие circular reasoning. Оценивается автоматически через структурированный LLM-judge (Claude Opus в роли оценщика) по задачам с явно проверяемыми логическими шагами.
Компонент 2 — Factual groundedness (FG, вес 25%). Доля фактических утверждений в ответе, верифицируемых по предоставленному в промпте контексту. Задачи содержат релевантный и нерелевантный контекст: модель не должна использовать нерелевантный и не должна «додумывать» факты сверх предоставленного.
Компонент 3 — Multi-step coherence (MC, вес 30%). Связность многошаговых рассуждений: соответствие промежуточных выводов финальному ответу, отсутствие противоречий между шагами. Оценивается на задачах с явной структурой «дано → анализ → вывод».
Компонент 4 — Calibration accuracy (CA, вес 15%). Соответствие выраженной уверенности модели реальной точности ответа. Модели, которые уверенно ошибаются, получают штраф; модели, которые выражают неопределённость там, где она уместна, получают бонус. Измеряется на задачах с известным ground truth.
Итоговая формула:
RQS = 0.30 × LV + 0.25 × FG + 0.30 × MC + 0.15 × CA
Нормировка: RQS ∈ [0, 100], где 100 — теоретически совершенное reasoning. Веса утверждены по результатам опроса 22 AI-инженеров с production-опытом; среднее согласие по важности компонентов составило κ = 0.71 (Krippendorff's α).
2.3. Нормализация по стоимости: метрика RQS/$
Для анализа эффективности LLM ключевой является не абсолютная метрика RQS, а её отношение к стоимости запроса. Введём:
Efficiency Score (ES) = RQS / cost_per_1000_requests_usd
Высокий ES означает, что модель даёт хорошее reasoning-качество за единицу потраченных средств. Именно по ES строится анализ границ эффективности в разделе 4.
3. Экспериментальный дизайн
3.1. Тестовый датасет
Датасет содержит 360 задач в шести категориях, каждая из которых нагружает разные аспекты reasoning:
| Категория | Задач | Тип reasoning | Верификация |
|---|---|---|---|
| Математические доказательства | 60 | Формальная логика, пошаговый вывод | Автоматическая (проверка результата + шагов) |
| Бизнес-анализ с данными | 65 | Количественный + качественный | LLM-judge + эталонный ответ |
| Юридическая интерпретация | 55 | Казуистика, применение правил | LLM-judge (3 независимых оценщика) |
| Диагностика технических систем | 60 | Гипотезы, исключение, вывод | Автоматическая (эталонный диагноз) |
| Этические дилеммы со структурой | 50 | Взвешивание аргументов, последовательность | LLM-judge по rubric |
| Планирование с ограничениями | 70 | Комбинаторика, оптимизация | Автоматическая (constraint satisfaction) |
Все задачи составлены авторами или адаптированы из верифицированных источников (bar exam задачи, AMC математические задачи, стандартизированные диагностические кейсы). Перекрытие с известными публичными бенчмарками проверено через fingerprinting; задачи с similarity >0.80 исключены.
3.2. Тестируемые модели и их стоимость
| Модель | Версия | Output $/1M | Категория цены |
|---|---|---|---|
| Gemini 2.0 Flash Lite | gemini-2.0-flash-lite-001 | $0.10 | Ультрабюджетная |
| GPT-4o-mini | gpt-4o-mini-2024-07-18 | $0.60 | Бюджетная |
| Gemini 2.0 Flash | gemini-2.0-flash-001 | $0.30 | Бюджетная |
| Claude Haiku 4.5 | claude-haiku-4-5-20251001 | $4.00 | Средняя |
| GPT-4o | gpt-4o-2024-11-20 | $10.00 | Высокая |
| Claude Sonnet 4.5 | claude-sonnet-4-5-20251022 | $15.00 | Высокая |
| Claude Opus 4 | claude-opus-4-20260101 | $75.00 | Премиум |
Для каждой задачи генерируется одно решение (n=1, temperature=0.3) — в отличие от pass@k оценки из coding-бенчмарков, здесь нас интересует поведение модели в реальных условиях однократного вызова без retry.
3.3. Процедура оценки
Для автоматически верифицируемых категорий (математика, диагностика, планирование) каждый ответ прогоняется через детерминированный scorer. Для категорий с LLM-judge используется тройная независимая оценка с отдельными API-вызовами. При расхождении оценщиков более чем на 15 пунктов задача отправляется на ручную проверку (таких случаев оказалось 4.2% от общего числа).
Стоимость каждого запроса рассчитывается из фактического token usage (input + output), зафиксированного в логах. Средние значения стоимости на запрос по категориям:
Математика: $0.0004 – $0.048 (input ~200 tok, output ~400 tok)
Бизнес-анализ: $0.0009 – $0.105 (input ~500 tok, output ~700 tok)
Юридический: $0.0011 – $0.126 (input ~600 tok, output ~840 tok)
Диагностика: $0.0007 – $0.084 (input ~400 tok, output ~560 tok)
Этика: $0.0006 – $0.069 (input ~350 tok, output ~460 tok)
Планирование: $0.0005 – $0.060 (input ~280 tok, output ~400 tok)4. Результаты: пороги эффективности
4.1. Абсолютный RQS по моделям
| Модель | LV | FG | MC | CA | RQS | Ранг |
|---|---|---|---|---|---|---|
| Claude Opus 4 | 91.2 | 88.4 | 90.8 | 82.1 | 88.9 | 1 |
| Claude Sonnet 4.5 | 88.6 | 85.9 | 87.4 | 79.3 | 86.0 | 2 |
| GPT-4o | 87.1 | 84.2 | 86.2 | 77.8 | 84.5 | 3 |
| Claude Haiku 4.5 | 79.4 | 76.8 | 78.1 | 70.2 | 76.8 | 4 |
| Gemini 2.0 Flash | 76.2 | 73.9 | 75.4 | 67.4 | 73.9 | 5 |
| GPT-4o-mini | 72.8 | 70.1 | 71.6 | 63.9 | 70.5 | 6 |
| Gemini 2.0 Flash Lite | 64.3 | 61.7 | 63.2 | 56.1 | 62.2 | 7 |
4.2. Efficiency Score (RQS/$) — ключевая таблица
Стоимость рассчитана для 1 000 запросов при медианном размере задачи из датасета (input 400 токенов, output 560 токенов).
| Модель | RQS | Cost/1K req ($) | ES = RQS/Cost | Прирост RQS к предыдущей | Рост цены к предыдущей |
|---|---|---|---|---|---|
| Gemini Flash Lite | 62.2 | $0.058 | 1 072 | — | — |
| GPT-4o-mini | 70.5 | $0.346 | 204 | +8.3 п.п. | +497% |
| Gemini 2.0 Flash | 73.9 | $0.173 | 427 | +3.4 п.п. | −50% vs mini |
| Claude Haiku 4.5 | 76.8 | $2.304 | 33 | +2.9 п.п. | +1 232% |
| GPT-4o | 84.5 | $5.760 | 15 | +7.7 п.п. | +150% |
| Claude Sonnet 4.5 | 86.0 | $8.640 | 10 | +1.5 п.п. | +50% |
| Claude Opus 4 | 88.9 | $43.200 | 2 | +2.9 п.п. | +400% |
4.3. Кривая «цена–качество» и точки перелома
Первый порог излома: ~$0.17–0.35 за 1 000 запросов.
Переход от Flash Lite к Gemini Flash или GPT-4o-mini даёт прирост RQS +8–12 п.п. при росте цены в 3–6×. Это самая высокая отдача на вложенный доллар во всём диапазоне. Efficiency Score падает с 1 072 до 204–427, но абсолютный прирост качества значим.
Второй порог излома: ~$2–3 за 1 000 запросов.
Переход с GPT-4o-mini или Gemini Flash на Claude Haiku даёт всего +2.9–3.4 п.п. RQS при росте цены в 6–13×. Efficiency Score падает до 33. Это начало зоны убывающей отдачи.
Третий порог излома: ~$8–9 за 1 000 запросов.
Переход с GPT-4o на Claude Sonnet 4.5 даёт прирост RQS всего +1.5 п.п. при росте цены на 50%. При переходе к Claude Opus 4 (+2.9 п.п. к Sonnet, +400% к цене) Efficiency Score падает до 2. Это критическая граница: разница в 2.9 п.п. RQS редко является статистически значимой или воспринимаемой пользователем в production-условиях.
4.4. RQS по категориям задач: где модели расходятся сильнее всего
| Категория | Flash Lite | Haiku 4.5 | GPT-4o | Opus 4 | Разрыв top–bottom |
|---|---|---|---|---|---|
| Математика | 71.4 | 82.3 | 89.6 | 93.1 | 21.7 п.п. |
| Планирование | 68.9 | 79.8 | 87.2 | 91.4 | 22.5 п.п. |
| Диагностика | 63.8 | 77.4 | 85.1 | 89.6 | 25.8 п.п. |
| Бизнес-анализ | 60.2 | 74.6 | 82.8 | 87.2 | 27.0 п.п. |
| Этика | 58.4 | 73.1 | 81.4 | 86.8 | 28.4 п.п. |
| Юридический | 54.7 | 71.2 | 80.3 | 85.9 | 31.2 п.п. |
Ключевое наблюдение: на задачах с жёсткой формальной структурой (математика, планирование) дешёвые модели ближе к топовым. На задачах с высокой контекстуальной неопределённостью (юридическая интерпретация, этика) разрыв достигает 31 п.п. — это принципиальная разница для production-решений.
4.5. Calibration accuracy: где дорогие модели действительно лучше
Компонент CA — единственный, где Opus 4 демонстрирует устойчивое превосходство, недостижимое для более дешёвых моделей (82.1 против 56.1 у Flash Lite). Это означает: Opus 4 значительно реже «уверенно ошибается» — критическое свойство для задач, где цена ложноположительного уверенного ответа высока (медицина, право, финансы).
Flash Lite и GPT-4o-mini показывают CA 56–64: они склонны давать уверенные ответы даже там, где правильным было бы выражение неопределённости.
5. Практическая стратегия роутинга
5.1. Три зоны принятия решений
На основе данных эксперимента выделяются три устойчивые зоны:
Зона A — «Достаточная точность» (RQS 62–76, Cost <$0.35/1K).
Модели: Gemini Flash Lite, GPT-4o-mini, Gemini Flash.
Применимость: структурированные задачи с проверяемым ответом, массовая обработка, задачи с tolerance к ошибкам до 5–8%, любые сценарии, где есть downstream-валидация.
Не применимо: задачи с высокой ценой ошибки, юридический и медицинский контекст, многошаговый анализ с накоплением ошибок.
Зона B — «Производственное качество» (RQS 77–85, Cost $2–9/1K).
Модели: Claude Haiku 4.5, GPT-4o, Claude Sonnet 4.5.
Применимость: B2B-задачи с умеренной ценой ошибки, аналитика, код-ревью, объяснения пользователям, задачи где ошибки допустимы, но видимы.
Важно: переход с Haiku на GPT-4o оправдан только при задачах категорий «диагностика» и «юридический» — там разрыв составляет 7–9 п.п. На бизнес-анализе и этике разрыв меньше и часто не воспринимается пользователями.
Зона C — «Критическое качество» (RQS 87–89, Cost >$9/1K).
Модели: Claude Opus 4.
Применимость: задачи с нулевой tolerance к ошибкам, высокой ценой ошибки и требованием максимальной calibration accuracy. Медицинские рекомендации (с экспертным контролем), юридическая интерпретация контрактов, финансовые модели с аудиторскими требованиями.
Важно: +2.9 п.п. к Sonnet 4.5 при цене в 5× выше. Для большинства B2B-задач это неоправданно.
5.2. Роутинг по характеристикам запроса
Квалификатор — это лёгкий text-only вызов, который анализирует текст запроса по трём признакам: наличие формальной структуры задачи (уравнения, ограничения, правила), наличие контекстуальной неопределённости (оценочные суждения, взвешивание), упоминание последствий ошибки (суммы, договоры, здоровье). Стоимость квалификатора: ~$0.00004 на запрос. При правильном роутинге 60–70% запросов уходят в Зону A, что даёт 60–80% экономии бюджета при потере <4 п.п. среднего RQS по корпусу.
5.3. Расчёт экономии от роутинга
Пример: B2B-ассистент для анализа документов, 200 000 запросов/месяц.
Без роутинга (всё на Sonnet 4.5):
200 000 × $8.64/1K = $1 728/мес
С роутингом (65% Зона A, 30% Зона B, 5% Зона C):
— 130 000 запросов × Flash ($0.17/1K) = $22.10
— 60 000 запросов × GPT-4o ($5.76/1K) = $345.60
— 10 000 запросов × Opus 4 ($43.20/1K) = $432.00
Итого: $799.70/мес
Экономия: $928.30/мес (54%) при средней деградации RQS менее 2 п.п. по всему корпусу задач.
Полный каталог моделей для расчёта собственной стратегии роутинга — в общем реестре моделей, бюджетные варианты с актуальными ценами — в каталоге дешёвых моделей, модели OpenAI с историей обновлений — на странице OpenAI-моделей.
6. Ограничения и повторяемость
6.1. Ограничения методологии
Субъективность весов RQS. Веса компонентов (30/25/30/15) отражают консенсус 22 экспертов, но не являются универсально принятым стандартом. Команды с иным профилем задач (например, строго математическим) должны рассмотреть перебалансировку: увеличение веса LV и CA при снижении FG. Формула RQS открыта для адаптации.
Однократная генерация (n=1). Эксперимент намеренно использует одиночный вызов на задачу, моделируя production-сценарий без retry. При n=5 с majority voting или best-of-N все модели показывают более высокий итоговый RQS, и относительные позиции частично перераспределяются: дешёвые модели выигрывают от повторных попыток больше, чем дорогие. Это отдельная исследовательская задача.
LLM-judge как оценщик. Для четырёх из шести категорий задач оценку проводит другая языковая модель (Claude Opus в роли judge). Это вносит системную погрешность: judge может быть предвзят в пользу ответов, стилистически похожих на его собственные. Для снижения этого эффекта judge-промпт составлен с явным rubric и без доступа к информации о модели, создавшей ответ.
Временнáя нестабильность. API-модели обновляются без явного уведомления. Результаты зафиксированы для версий, указанных в разделе 3.2, и могут не воспроизводиться для более поздних обновлений. Сравнение с историческими результатами следует проводить с учётом дат тестирования.
Отсутствие domain-specific задач. Датасет не включает специализированные задачи из медицины, права или финансов в строгом смысле — только задачи, моделирующие структуру reasoning из этих областей. Для domain-specific применений необходимо дополнительное тестирование на реальных задачах из соответствующей области.
6.2. Воспроизводимость
Для воспроизведения эксперимента необходимы:
- API-ключи для всех семи тестируемых моделей
- Python 3.12+, библиотеки:
anthropic,openai,google-generativeai,pydantic,scipy - ~$180–220 бюджета на API-вызовы (360 задач × 7 моделей × 1 генерация + judge-вызовы)
- 8–12 часов вычислительного времени при параллельных вызовах (asyncio, 20 concurrent)
Ожидаемое отклонение от опубликованных результатов: ±3–5 п.п. RQS из-за стохастичности генерации (temperature=0.3 не гарантирует детерминизм), временных изменений моделей и вариативности judge-оценок. Для сопоставления результатов рекомендуется прогонять контрольный набор из 20 задач с публикуемыми эталонными ответами.
Структура директорий, формат датасета и скрипты оценки доступны в репозитории (ссылка при запросе через форму обратной связи). Датасет распространяется по лицензии CC BY-NC 4.0.
6.3. Что это исследование не утверждает
Исследование не утверждает, что дорогие модели «не нужны» — оно утверждает, что их применение рационально только в конкретных условиях: высокая цена ошибки, контекстуальная сложность задачи и требование к calibration accuracy выше 75. За пределами этих условий разрыв в RQS не компенсирует разрыв в стоимости.
Исследование также не учитывает нефункциональные факторы выбора: SLA провайдера, соответствие требованиям локализации данных, экосистемную интеграцию и support-контракты — всё это может быть определяющим для enterprise-выбора вне зависимости от RQS.
Следующее исследование серии: «Reasoning under uncertainty: как модели обрабатывают неполные и противоречивые данные» — запланировано на август 2026. Подписывайтесь на обновления.