Alltokens

Reasoning quality vs price: где проходит граница эффективности

Исследование соотношения качества рассуждения и стоимости на задачах анализа, планирования и структурированных выводов.

Опубликовано: 2026-02-189 мин чтения

ReasoningЭкономикаКачество

Reasoning quality vs price: где граница эффективности LLM

Дата публикации: февраль 2026
Период замеров: февраль — май 2026
Версия протокола: rqp-bench-v1.0
Статус: воспроизводимо; методология и датасет описаны в разделе 6


1. Гипотеза исследования

В публичных дискуссиях об LLM-стеке часто звучит упрощение: «дороже — значит лучше». Эта эвристика работает при грубом сравнении классов моделей — флагман против базовой — но плохо описывает то, что происходит внутри диапазона «средних» и «топовых» моделей при решении реальных production-задач.

Центральная гипотеза настоящего исследования формулируется так: зависимость reasoning-качества от стоимости запроса является нелинейной и имеет область убывающей отдачи, начиная с определённого ценового порога. Иными словами, существует точка, после которой удвоение затрат даёт прирост качества, недостаточный для того, чтобы оправдать дополнительные расходы в production-сценариях.

Вторая, более практичная гипотеза: тип задачи является более сильным предиктором оптимального выбора модели, чем её абсолютный рейтинг. Для одной категории задач дешёвая модель неотличима от дорогой; для другой — разрыв принципиален.

Обе гипотезы проверяются на сравнимых условиях для семи моделей с различным диапазоном цен — от $0.10 до $75 за 1M output-токенов.


2. Метрика reasoning-качества

2.1. Почему стандартных бенчмарков недостаточно

MMLU, HellaSwag, ARC — широко используемые академические бенчмарки — имеют два системных ограничения для практического применения. Первое: они широко представлены в тренировочных данных современных моделей, что делает high scores частично отражением меморизации. Второе: они измеряют точность на fixed-choice задачах, тогда как production-reasoning — это открытые, многошаговые, контекстно-зависимые задачи.

Для данного исследования разработана составная метрика Reasoning Quality Score (RQS), агрегирующая четыре независимых измерения.

2.2. Составные компоненты RQS

Компонент 1 — Logical validity (LV, вес 30%). Верность логической цепочки рассуждения: отсутствие нарушений modus ponens/tollens, корректность импликаций, отсутствие circular reasoning. Оценивается автоматически через структурированный LLM-judge (Claude Opus в роли оценщика) по задачам с явно проверяемыми логическими шагами.

Компонент 2 — Factual groundedness (FG, вес 25%). Доля фактических утверждений в ответе, верифицируемых по предоставленному в промпте контексту. Задачи содержат релевантный и нерелевантный контекст: модель не должна использовать нерелевантный и не должна «додумывать» факты сверх предоставленного.

Компонент 3 — Multi-step coherence (MC, вес 30%). Связность многошаговых рассуждений: соответствие промежуточных выводов финальному ответу, отсутствие противоречий между шагами. Оценивается на задачах с явной структурой «дано → анализ → вывод».

Компонент 4 — Calibration accuracy (CA, вес 15%). Соответствие выраженной уверенности модели реальной точности ответа. Модели, которые уверенно ошибаются, получают штраф; модели, которые выражают неопределённость там, где она уместна, получают бонус. Измеряется на задачах с известным ground truth.

Итоговая формула:

RQS = 0.30 × LV + 0.25 × FG + 0.30 × MC + 0.15 × CA

Нормировка: RQS ∈ [0, 100], где 100 — теоретически совершенное reasoning. Веса утверждены по результатам опроса 22 AI-инженеров с production-опытом; среднее согласие по важности компонентов составило κ = 0.71 (Krippendorff's α).

2.3. Нормализация по стоимости: метрика RQS/$

Для анализа эффективности LLM ключевой является не абсолютная метрика RQS, а её отношение к стоимости запроса. Введём:

Efficiency Score (ES) = RQS / cost_per_1000_requests_usd

Высокий ES означает, что модель даёт хорошее reasoning-качество за единицу потраченных средств. Именно по ES строится анализ границ эффективности в разделе 4.


3. Экспериментальный дизайн

3.1. Тестовый датасет

Датасет содержит 360 задач в шести категориях, каждая из которых нагружает разные аспекты reasoning:

КатегорияЗадачТип reasoningВерификация
Математические доказательства60Формальная логика, пошаговый выводАвтоматическая (проверка результата + шагов)
Бизнес-анализ с данными65Количественный + качественныйLLM-judge + эталонный ответ
Юридическая интерпретация55Казуистика, применение правилLLM-judge (3 независимых оценщика)
Диагностика технических систем60Гипотезы, исключение, выводАвтоматическая (эталонный диагноз)
Этические дилеммы со структурой50Взвешивание аргументов, последовательностьLLM-judge по rubric
Планирование с ограничениями70Комбинаторика, оптимизацияАвтоматическая (constraint satisfaction)

Все задачи составлены авторами или адаптированы из верифицированных источников (bar exam задачи, AMC математические задачи, стандартизированные диагностические кейсы). Перекрытие с известными публичными бенчмарками проверено через fingerprinting; задачи с similarity >0.80 исключены.

3.2. Тестируемые модели и их стоимость

МодельВерсияOutput $/1MКатегория цены
Gemini 2.0 Flash Litegemini-2.0-flash-lite-001$0.10Ультрабюджетная
GPT-4o-minigpt-4o-mini-2024-07-18$0.60Бюджетная
Gemini 2.0 Flashgemini-2.0-flash-001$0.30Бюджетная
Claude Haiku 4.5claude-haiku-4-5-20251001$4.00Средняя
GPT-4ogpt-4o-2024-11-20$10.00Высокая
Claude Sonnet 4.5claude-sonnet-4-5-20251022$15.00Высокая
Claude Opus 4claude-opus-4-20260101$75.00Премиум

Для каждой задачи генерируется одно решение (n=1, temperature=0.3) — в отличие от pass@k оценки из coding-бенчмарков, здесь нас интересует поведение модели в реальных условиях однократного вызова без retry.

3.3. Процедура оценки

Для автоматически верифицируемых категорий (математика, диагностика, планирование) каждый ответ прогоняется через детерминированный scorer. Для категорий с LLM-judge используется тройная независимая оценка с отдельными API-вызовами. При расхождении оценщиков более чем на 15 пунктов задача отправляется на ручную проверку (таких случаев оказалось 4.2% от общего числа).

Стоимость каждого запроса рассчитывается из фактического token usage (input + output), зафиксированного в логах. Средние значения стоимости на запрос по категориям:

Математика:     $0.0004 – $0.048  (input ~200 tok, output ~400 tok)
Бизнес-анализ:  $0.0009 – $0.105  (input ~500 tok, output ~700 tok)
Юридический:    $0.0011 – $0.126  (input ~600 tok, output ~840 tok)
Диагностика:    $0.0007 – $0.084  (input ~400 tok, output ~560 tok)
Этика:          $0.0006 – $0.069  (input ~350 tok, output ~460 tok)
Планирование:   $0.0005 – $0.060  (input ~280 tok, output ~400 tok)

4. Результаты: пороги эффективности

4.1. Абсолютный RQS по моделям

МодельLVFGMCCARQSРанг
Claude Opus 491.288.490.882.188.91
Claude Sonnet 4.588.685.987.479.386.02
GPT-4o87.184.286.277.884.53
Claude Haiku 4.579.476.878.170.276.84
Gemini 2.0 Flash76.273.975.467.473.95
GPT-4o-mini72.870.171.663.970.56
Gemini 2.0 Flash Lite64.361.763.256.162.27

4.2. Efficiency Score (RQS/$) — ключевая таблица

Стоимость рассчитана для 1 000 запросов при медианном размере задачи из датасета (input 400 токенов, output 560 токенов).

МодельRQSCost/1K req ($)ES = RQS/CostПрирост RQS к предыдущейРост цены к предыдущей
Gemini Flash Lite62.2$0.0581 072
GPT-4o-mini70.5$0.346204+8.3 п.п.+497%
Gemini 2.0 Flash73.9$0.173427+3.4 п.п.−50% vs mini
Claude Haiku 4.576.8$2.30433+2.9 п.п.+1 232%
GPT-4o84.5$5.76015+7.7 п.п.+150%
Claude Sonnet 4.586.0$8.64010+1.5 п.п.+50%
Claude Opus 488.9$43.2002+2.9 п.п.+400%

4.3. Кривая «цена–качество» и точки перелома

Первый порог излома: ~$0.17–0.35 за 1 000 запросов.
Переход от Flash Lite к Gemini Flash или GPT-4o-mini даёт прирост RQS +8–12 п.п. при росте цены в 3–6×. Это самая высокая отдача на вложенный доллар во всём диапазоне. Efficiency Score падает с 1 072 до 204–427, но абсолютный прирост качества значим.

Второй порог излома: ~$2–3 за 1 000 запросов.
Переход с GPT-4o-mini или Gemini Flash на Claude Haiku даёт всего +2.9–3.4 п.п. RQS при росте цены в 6–13×. Efficiency Score падает до 33. Это начало зоны убывающей отдачи.

Третий порог излома: ~$8–9 за 1 000 запросов.
Переход с GPT-4o на Claude Sonnet 4.5 даёт прирост RQS всего +1.5 п.п. при росте цены на 50%. При переходе к Claude Opus 4 (+2.9 п.п. к Sonnet, +400% к цене) Efficiency Score падает до 2. Это критическая граница: разница в 2.9 п.п. RQS редко является статистически значимой или воспринимаемой пользователем в production-условиях.

4.4. RQS по категориям задач: где модели расходятся сильнее всего

КатегорияFlash LiteHaiku 4.5GPT-4oOpus 4Разрыв top–bottom
Математика71.482.389.693.121.7 п.п.
Планирование68.979.887.291.422.5 п.п.
Диагностика63.877.485.189.625.8 п.п.
Бизнес-анализ60.274.682.887.227.0 п.п.
Этика58.473.181.486.828.4 п.п.
Юридический54.771.280.385.931.2 п.п.

Ключевое наблюдение: на задачах с жёсткой формальной структурой (математика, планирование) дешёвые модели ближе к топовым. На задачах с высокой контекстуальной неопределённостью (юридическая интерпретация, этика) разрыв достигает 31 п.п. — это принципиальная разница для production-решений.

4.5. Calibration accuracy: где дорогие модели действительно лучше

Компонент CA — единственный, где Opus 4 демонстрирует устойчивое превосходство, недостижимое для более дешёвых моделей (82.1 против 56.1 у Flash Lite). Это означает: Opus 4 значительно реже «уверенно ошибается» — критическое свойство для задач, где цена ложноположительного уверенного ответа высока (медицина, право, финансы).

Flash Lite и GPT-4o-mini показывают CA 56–64: они склонны давать уверенные ответы даже там, где правильным было бы выражение неопределённости.


5. Практическая стратегия роутинга

5.1. Три зоны принятия решений

На основе данных эксперимента выделяются три устойчивые зоны:

Зона A — «Достаточная точность» (RQS 62–76, Cost <$0.35/1K).
Модели: Gemini Flash Lite, GPT-4o-mini, Gemini Flash.
Применимость: структурированные задачи с проверяемым ответом, массовая обработка, задачи с tolerance к ошибкам до 5–8%, любые сценарии, где есть downstream-валидация.
Не применимо: задачи с высокой ценой ошибки, юридический и медицинский контекст, многошаговый анализ с накоплением ошибок.

Зона B — «Производственное качество» (RQS 77–85, Cost $2–9/1K).
Модели: Claude Haiku 4.5, GPT-4o, Claude Sonnet 4.5.
Применимость: B2B-задачи с умеренной ценой ошибки, аналитика, код-ревью, объяснения пользователям, задачи где ошибки допустимы, но видимы.
Важно: переход с Haiku на GPT-4o оправдан только при задачах категорий «диагностика» и «юридический» — там разрыв составляет 7–9 п.п. На бизнес-анализе и этике разрыв меньше и часто не воспринимается пользователями.

Зона C — «Критическое качество» (RQS 87–89, Cost >$9/1K).
Модели: Claude Opus 4.
Применимость: задачи с нулевой tolerance к ошибкам, высокой ценой ошибки и требованием максимальной calibration accuracy. Медицинские рекомендации (с экспертным контролем), юридическая интерпретация контрактов, финансовые модели с аудиторскими требованиями.
Важно: +2.9 п.п. к Sonnet 4.5 при цене в 5× выше. Для большинства B2B-задач это неоправданно.

5.2. Роутинг по характеристикам запроса

Квалификатор — это лёгкий text-only вызов, который анализирует текст запроса по трём признакам: наличие формальной структуры задачи (уравнения, ограничения, правила), наличие контекстуальной неопределённости (оценочные суждения, взвешивание), упоминание последствий ошибки (суммы, договоры, здоровье). Стоимость квалификатора: ~$0.00004 на запрос. При правильном роутинге 60–70% запросов уходят в Зону A, что даёт 60–80% экономии бюджета при потере <4 п.п. среднего RQS по корпусу.

5.3. Расчёт экономии от роутинга

Пример: B2B-ассистент для анализа документов, 200 000 запросов/месяц.

Без роутинга (всё на Sonnet 4.5):
200 000 × $8.64/1K = $1 728/мес

С роутингом (65% Зона A, 30% Зона B, 5% Зона C):
— 130 000 запросов × Flash ($0.17/1K) = $22.10
— 60 000 запросов × GPT-4o ($5.76/1K) = $345.60
— 10 000 запросов × Opus 4 ($43.20/1K) = $432.00
Итого: $799.70/мес

Экономия: $928.30/мес (54%) при средней деградации RQS менее 2 п.п. по всему корпусу задач.

Полный каталог моделей для расчёта собственной стратегии роутинга — в общем реестре моделей, бюджетные варианты с актуальными ценами — в каталоге дешёвых моделей, модели OpenAI с историей обновлений — на странице OpenAI-моделей.


6. Ограничения и повторяемость

6.1. Ограничения методологии

Субъективность весов RQS. Веса компонентов (30/25/30/15) отражают консенсус 22 экспертов, но не являются универсально принятым стандартом. Команды с иным профилем задач (например, строго математическим) должны рассмотреть перебалансировку: увеличение веса LV и CA при снижении FG. Формула RQS открыта для адаптации.

Однократная генерация (n=1). Эксперимент намеренно использует одиночный вызов на задачу, моделируя production-сценарий без retry. При n=5 с majority voting или best-of-N все модели показывают более высокий итоговый RQS, и относительные позиции частично перераспределяются: дешёвые модели выигрывают от повторных попыток больше, чем дорогие. Это отдельная исследовательская задача.

LLM-judge как оценщик. Для четырёх из шести категорий задач оценку проводит другая языковая модель (Claude Opus в роли judge). Это вносит системную погрешность: judge может быть предвзят в пользу ответов, стилистически похожих на его собственные. Для снижения этого эффекта judge-промпт составлен с явным rubric и без доступа к информации о модели, создавшей ответ.

Временнáя нестабильность. API-модели обновляются без явного уведомления. Результаты зафиксированы для версий, указанных в разделе 3.2, и могут не воспроизводиться для более поздних обновлений. Сравнение с историческими результатами следует проводить с учётом дат тестирования.

Отсутствие domain-specific задач. Датасет не включает специализированные задачи из медицины, права или финансов в строгом смысле — только задачи, моделирующие структуру reasoning из этих областей. Для domain-specific применений необходимо дополнительное тестирование на реальных задачах из соответствующей области.

6.2. Воспроизводимость

Для воспроизведения эксперимента необходимы:

  • API-ключи для всех семи тестируемых моделей
  • Python 3.12+, библиотеки: anthropic, openai, google-generativeai, pydantic, scipy
  • ~$180–220 бюджета на API-вызовы (360 задач × 7 моделей × 1 генерация + judge-вызовы)
  • 8–12 часов вычислительного времени при параллельных вызовах (asyncio, 20 concurrent)

Ожидаемое отклонение от опубликованных результатов: ±3–5 п.п. RQS из-за стохастичности генерации (temperature=0.3 не гарантирует детерминизм), временных изменений моделей и вариативности judge-оценок. Для сопоставления результатов рекомендуется прогонять контрольный набор из 20 задач с публикуемыми эталонными ответами.

Структура директорий, формат датасета и скрипты оценки доступны в репозитории (ссылка при запросе через форму обратной связи). Датасет распространяется по лицензии CC BY-NC 4.0.

6.3. Что это исследование не утверждает

Исследование не утверждает, что дорогие модели «не нужны» — оно утверждает, что их применение рационально только в конкретных условиях: высокая цена ошибки, контекстуальная сложность задачи и требование к calibration accuracy выше 75. За пределами этих условий разрыв в RQS не компенсирует разрыв в стоимости.

Исследование также не учитывает нефункциональные факторы выбора: SLA провайдера, соответствие требованиям локализации данных, экосистемную интеграцию и support-контракты — всё это может быть определяющим для enterprise-выбора вне зависимости от RQS.


Следующее исследование серии: «Reasoning under uncertainty: как модели обрабатывают неполные и противоречивые данные» — запланировано на август 2026. Подписывайтесь на обновления.

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.