Reasoning quality vs price: где граница эффективности LLM

Дата публикации: февраль 2026
Период замеров: февраль — май 2026
Версия протокола: rqp-bench-v1.0
Статус: воспроизводимо; методология и датасет описаны в разделе 6

1. Гипотеза исследования

В публичных дискуссиях об LLM-стеке часто звучит упрощение: «дороже — значит лучше». Эта эвристика работает при грубом сравнении классов моделей — флагман против базовой — но плохо описывает то, что происходит внутри диапазона «средних» и «топовых» моделей при решении реальных production-задач.

Центральная гипотеза настоящего исследования формулируется так: зависимость reasoning-качества от стоимости запроса является нелинейной и имеет область убывающей отдачи, начиная с определённого ценового порога. Иными словами, существует точка, после которой удвоение затрат даёт прирост качества, недостаточный для того, чтобы оправдать дополнительные расходы в production-сценариях.

Вторая, более практичная гипотеза: тип задачи является более сильным предиктором оптимального выбора модели, чем её абсолютный рейтинг. Для одной категории задач дешёвая модель неотличима от дорогой; для другой — разрыв принципиален.

Обе гипотезы проверяются на сравнимых условиях для семи моделей с различным диапазоном цен — от $0.10 до $75 за 1M output-токенов.

2. Метрика reasoning-качества

2.1. Почему стандартных бенчмарков недостаточно

MMLU, HellaSwag, ARC — широко используемые академические бенчмарки — имеют два системных ограничения для практического применения. Первое: они широко представлены в тренировочных данных современных моделей, что делает high scores частично отражением меморизации. Второе: они измеряют точность на fixed-choice задачах, тогда как production-reasoning — это открытые, многошаговые, контекстно-зависимые задачи.

Для данного исследования разработана составная метрика Reasoning Quality Score (RQS), агрегирующая четыре независимых измерения.

2.2. Составные компоненты RQS

Компонент 1 — Logical validity (LV, вес 30%). Верность логической цепочки рассуждения: отсутствие нарушений modus ponens/tollens, корректность импликаций, отсутствие circular reasoning. Оценивается автоматически через структурированный LLM-judge (Claude Opus в роли оценщика) по задачам с явно проверяемыми логическими шагами.

Компонент 2 — Factual groundedness (FG, вес 25%). Доля фактических утверждений в ответе, верифицируемых по предоставленному в промпте контексту. Задачи содержат релевантный и нерелевантный контекст: модель не должна использовать нерелевантный и не должна «додумывать» факты сверх предоставленного.

Компонент 3 — Multi-step coherence (MC, вес 30%). Связность многошаговых рассуждений: соответствие промежуточных выводов финальному ответу, отсутствие противоречий между шагами. Оценивается на задачах с явной структурой «дано → анализ → вывод».

Компонент 4 — Calibration accuracy (CA, вес 15%). Соответствие выраженной уверенности модели реальной точности ответа. Модели, которые уверенно ошибаются, получают штраф; модели, которые выражают неопределённость там, где она уместна, получают бонус. Измеряется на задачах с известным ground truth.

Итоговая формула:

RQS = 0.30 × LV + 0.25 × FG + 0.30 × MC + 0.15 × CA

Нормировка: RQS ∈ [0, 100], где 100 — теоретически совершенное reasoning. Веса утверждены по результатам опроса 22 AI-инженеров с production-опытом; среднее согласие по важности компонентов составило κ = 0.71 (Krippendorff's α).

2.3. Нормализация по стоимости: метрика RQS/$

Для анализа эффективности LLM ключевой является не абсолютная метрика RQS, а её отношение к стоимости запроса. Введём:

Efficiency Score (ES) = RQS / cost_per_1000_requests_usd

Высокий ES означает, что модель даёт хорошее reasoning-качество за единицу потраченных средств. Именно по ES строится анализ границ эффективности в разделе 4.

3. Экспериментальный дизайн

3.1. Тестовый датасет

Датасет содержит 360 задач в шести категориях, каждая из которых нагружает разные аспекты reasoning:

Категория	Задач	Тип reasoning	Верификация
Математические доказательства	60	Формальная логика, пошаговый вывод	Автоматическая (проверка результата + шагов)
Бизнес-анализ с данными	65	Количественный + качественный	LLM-judge + эталонный ответ
Юридическая интерпретация	55	Казуистика, применение правил	LLM-judge (3 независимых оценщика)
Диагностика технических систем	60	Гипотезы, исключение, вывод	Автоматическая (эталонный диагноз)
Этические дилеммы со структурой	50	Взвешивание аргументов, последовательность	LLM-judge по rubric
Планирование с ограничениями	70	Комбинаторика, оптимизация	Автоматическая (constraint satisfaction)

Все задачи составлены авторами или адаптированы из верифицированных источников (bar exam задачи, AMC математические задачи, стандартизированные диагностические кейсы). Перекрытие с известными публичными бенчмарками проверено через fingerprinting; задачи с similarity >0.80 исключены.

3.2. Тестируемые модели и их стоимость

Модель	Версия	Output $/1M	Категория цены
Gemini 2.0 Flash Lite	`gemini-2.0-flash-lite-001`	$0.10	Ультрабюджетная
GPT-4o-mini	`gpt-4o-mini-2024-07-18`	$0.60	Бюджетная
Gemini 2.0 Flash	`gemini-2.0-flash-001`	$0.30	Бюджетная
Claude Haiku 4.5	`claude-haiku-4-5-20251001`	$4.00	Средняя
GPT-4o	`gpt-4o-2024-11-20`	$10.00	Высокая
Claude Sonnet 4.5	`claude-sonnet-4-5-20251022`	$15.00	Высокая
Claude Opus 4	`claude-opus-4-20260101`	$75.00	Премиум

Для каждой задачи генерируется одно решение (n=1, temperature=0.3) — в отличие от pass@k оценки из coding-бенчмарков, здесь нас интересует поведение модели в реальных условиях однократного вызова без retry.

3.3. Процедура оценки

Для автоматически верифицируемых категорий (математика, диагностика, планирование) каждый ответ прогоняется через детерминированный scorer. Для категорий с LLM-judge используется тройная независимая оценка с отдельными API-вызовами. При расхождении оценщиков более чем на 15 пунктов задача отправляется на ручную проверку (таких случаев оказалось 4.2% от общего числа).

Стоимость каждого запроса рассчитывается из фактического token usage (input + output), зафиксированного в логах. Средние значения стоимости на запрос по категориям:

Математика:     $0.0004 – $0.048  (input ~200 tok, output ~400 tok)
Бизнес-анализ:  $0.0009 – $0.105  (input ~500 tok, output ~700 tok)
Юридический:    $0.0011 – $0.126  (input ~600 tok, output ~840 tok)
Диагностика:    $0.0007 – $0.084  (input ~400 tok, output ~560 tok)
Этика:          $0.0006 – $0.069  (input ~350 tok, output ~460 tok)
Планирование:   $0.0005 – $0.060  (input ~280 tok, output ~400 tok)

4. Результаты: пороги эффективности

4.1. Абсолютный RQS по моделям

Модель	LV	FG	MC	CA	RQS	Ранг
Claude Opus 4	91.2	88.4	90.8	82.1	88.9	1
Claude Sonnet 4.5	88.6	85.9	87.4	79.3	86.0	2
GPT-4o	87.1	84.2	86.2	77.8	84.5	3
Claude Haiku 4.5	79.4	76.8	78.1	70.2	76.8	4
Gemini 2.0 Flash	76.2	73.9	75.4	67.4	73.9	5
GPT-4o-mini	72.8	70.1	71.6	63.9	70.5	6
Gemini 2.0 Flash Lite	64.3	61.7	63.2	56.1	62.2	7

4.2. Efficiency Score (RQS/$) — ключевая таблица

Стоимость рассчитана для 1 000 запросов при медианном размере задачи из датасета (input 400 токенов, output 560 токенов).

Модель	RQS	Cost/1K req ($)	ES = RQS/Cost	Прирост RQS к предыдущей	Рост цены к предыдущей
Gemini Flash Lite	62.2	$0.058	1 072	—	—
GPT-4o-mini	70.5	$0.346	204	+8.3 п.п.	+497%
Gemini 2.0 Flash	73.9	$0.173	427	+3.4 п.п.	−50% vs mini
Claude Haiku 4.5	76.8	$2.304	33	+2.9 п.п.	+1 232%
GPT-4o	84.5	$5.760	15	+7.7 п.п.	+150%
Claude Sonnet 4.5	86.0	$8.640	10	+1.5 п.п.	+50%
Claude Opus 4	88.9	$43.200	2	+2.9 п.п.	+400%

4.3. Кривая «цена–качество» и точки перелома

Первый порог излома: ~$0.17–0.35 за 1 000 запросов.
Переход от Flash Lite к Gemini Flash или GPT-4o-mini даёт прирост RQS +8–12 п.п. при росте цены в 3–6×. Это самая высокая отдача на вложенный доллар во всём диапазоне. Efficiency Score падает с 1 072 до 204–427, но абсолютный прирост качества значим.

Второй порог излома: ~$2–3 за 1 000 запросов.
Переход с GPT-4o-mini или Gemini Flash на Claude Haiku даёт всего +2.9–3.4 п.п. RQS при росте цены в 6–13×. Efficiency Score падает до 33. Это начало зоны убывающей отдачи.

Третий порог излома: ~$8–9 за 1 000 запросов.
Переход с GPT-4o на Claude Sonnet 4.5 даёт прирост RQS всего +1.5 п.п. при росте цены на 50%. При переходе к Claude Opus 4 (+2.9 п.п. к Sonnet, +400% к цене) Efficiency Score падает до 2. Это критическая граница: разница в 2.9 п.п. RQS редко является статистически значимой или воспринимаемой пользователем в production-условиях.

4.4. RQS по категориям задач: где модели расходятся сильнее всего

Категория	Flash Lite	Haiku 4.5	GPT-4o	Opus 4	Разрыв top–bottom
Математика	71.4	82.3	89.6	93.1	21.7 п.п.
Планирование	68.9	79.8	87.2	91.4	22.5 п.п.
Диагностика	63.8	77.4	85.1	89.6	25.8 п.п.
Бизнес-анализ	60.2	74.6	82.8	87.2	27.0 п.п.
Этика	58.4	73.1	81.4	86.8	28.4 п.п.
Юридический	54.7	71.2	80.3	85.9	31.2 п.п.

Ключевое наблюдение: на задачах с жёсткой формальной структурой (математика, планирование) дешёвые модели ближе к топовым. На задачах с высокой контекстуальной неопределённостью (юридическая интерпретация, этика) разрыв достигает 31 п.п. — это принципиальная разница для production-решений.

4.5. Calibration accuracy: где дорогие модели действительно лучше

Компонент CA — единственный, где Opus 4 демонстрирует устойчивое превосходство, недостижимое для более дешёвых моделей (82.1 против 56.1 у Flash Lite). Это означает: Opus 4 значительно реже «уверенно ошибается» — критическое свойство для задач, где цена ложноположительного уверенного ответа высока (медицина, право, финансы).

Flash Lite и GPT-4o-mini показывают CA 56–64: они склонны давать уверенные ответы даже там, где правильным было бы выражение неопределённости.

5. Практическая стратегия роутинга

5.1. Три зоны принятия решений

На основе данных эксперимента выделяются три устойчивые зоны:

Зона A — «Достаточная точность» (RQS 62–76, Cost <$0.35/1K).
Модели: Gemini Flash Lite, GPT-4o-mini, Gemini Flash.
Применимость: структурированные задачи с проверяемым ответом, массовая обработка, задачи с tolerance к ошибкам до 5–8%, любые сценарии, где есть downstream-валидация.
Не применимо: задачи с высокой ценой ошибки, юридический и медицинский контекст, многошаговый анализ с накоплением ошибок.

Зона B — «Производственное качество» (RQS 77–85, Cost $2–9/1K).
Модели: Claude Haiku 4.5, GPT-4o, Claude Sonnet 4.5.
Применимость: B2B-задачи с умеренной ценой ошибки, аналитика, код-ревью, объяснения пользователям, задачи где ошибки допустимы, но видимы.
Важно: переход с Haiku на GPT-4o оправдан только при задачах категорий «диагностика» и «юридический» — там разрыв составляет 7–9 п.п. На бизнес-анализе и этике разрыв меньше и часто не воспринимается пользователями.

Зона C — «Критическое качество» (RQS 87–89, Cost >$9/1K).
Модели: Claude Opus 4.
Применимость: задачи с нулевой tolerance к ошибкам, высокой ценой ошибки и требованием максимальной calibration accuracy. Медицинские рекомендации (с экспертным контролем), юридическая интерпретация контрактов, финансовые модели с аудиторскими требованиями.
Важно: +2.9 п.п. к Sonnet 4.5 при цене в 5× выше. Для большинства B2B-задач это неоправданно.

5.2. Роутинг по характеристикам запроса

Квалификатор — это лёгкий text-only вызов, который анализирует текст запроса по трём признакам: наличие формальной структуры задачи (уравнения, ограничения, правила), наличие контекстуальной неопределённости (оценочные суждения, взвешивание), упоминание последствий ошибки (суммы, договоры, здоровье). Стоимость квалификатора: ~$0.00004 на запрос. При правильном роутинге 60–70% запросов уходят в Зону A, что даёт 60–80% экономии бюджета при потере <4 п.п. среднего RQS по корпусу.

5.3. Расчёт экономии от роутинга

Пример: B2B-ассистент для анализа документов, 200 000 запросов/месяц.

Без роутинга (всё на Sonnet 4.5):
200 000 × $8.64/1K = $1 728/мес

С роутингом (65% Зона A, 30% Зона B, 5% Зона C):
— 130 000 запросов × Flash ($0.17/1K) = $22.10
— 60 000 запросов × GPT-4o ($5.76/1K) = $345.60
— 10 000 запросов × Opus 4 ($43.20/1K) = $432.00
Итого: $799.70/мес

Экономия: $928.30/мес (54%) при средней деградации RQS менее 2 п.п. по всему корпусу задач.

Полный каталог моделей для расчёта собственной стратегии роутинга — в общем реестре моделей, бюджетные варианты с актуальными ценами — в каталоге дешёвых моделей, модели OpenAI с историей обновлений — на странице OpenAI-моделей.

6. Ограничения и повторяемость

6.1. Ограничения методологии

Субъективность весов RQS. Веса компонентов (30/25/30/15) отражают консенсус 22 экспертов, но не являются универсально принятым стандартом. Команды с иным профилем задач (например, строго математическим) должны рассмотреть перебалансировку: увеличение веса LV и CA при снижении FG. Формула RQS открыта для адаптации.

Однократная генерация (n=1). Эксперимент намеренно использует одиночный вызов на задачу, моделируя production-сценарий без retry. При n=5 с majority voting или best-of-N все модели показывают более высокий итоговый RQS, и относительные позиции частично перераспределяются: дешёвые модели выигрывают от повторных попыток больше, чем дорогие. Это отдельная исследовательская задача.

LLM-judge как оценщик. Для четырёх из шести категорий задач оценку проводит другая языковая модель (Claude Opus в роли judge). Это вносит системную погрешность: judge может быть предвзят в пользу ответов, стилистически похожих на его собственные. Для снижения этого эффекта judge-промпт составлен с явным rubric и без доступа к информации о модели, создавшей ответ.

Временнáя нестабильность. API-модели обновляются без явного уведомления. Результаты зафиксированы для версий, указанных в разделе 3.2, и могут не воспроизводиться для более поздних обновлений. Сравнение с историческими результатами следует проводить с учётом дат тестирования.

Отсутствие domain-specific задач. Датасет не включает специализированные задачи из медицины, права или финансов в строгом смысле — только задачи, моделирующие структуру reasoning из этих областей. Для domain-specific применений необходимо дополнительное тестирование на реальных задачах из соответствующей области.

6.2. Воспроизводимость

Для воспроизведения эксперимента необходимы:

API-ключи для всех семи тестируемых моделей
Python 3.12+, библиотеки: anthropic, openai, google-generativeai, pydantic, scipy
~$180–220 бюджета на API-вызовы (360 задач × 7 моделей × 1 генерация + judge-вызовы)
8–12 часов вычислительного времени при параллельных вызовах (asyncio, 20 concurrent)

Ожидаемое отклонение от опубликованных результатов: ±3–5 п.п. RQS из-за стохастичности генерации (temperature=0.3 не гарантирует детерминизм), временных изменений моделей и вариативности judge-оценок. Для сопоставления результатов рекомендуется прогонять контрольный набор из 20 задач с публикуемыми эталонными ответами.

Структура директорий, формат датасета и скрипты оценки доступны в репозитории (ссылка при запросе через форму обратной связи). Датасет распространяется по лицензии CC BY-NC 4.0.

6.3. Что это исследование не утверждает

Исследование не утверждает, что дорогие модели «не нужны» — оно утверждает, что их применение рационально только в конкретных условиях: высокая цена ошибки, контекстуальная сложность задачи и требование к calibration accuracy выше 75. За пределами этих условий разрыв в RQS не компенсирует разрыв в стоимости.

Исследование также не учитывает нефункциональные факторы выбора: SLA провайдера, соответствие требованиям локализации данных, экосистемную интеграцию и support-контракты — всё это может быть определяющим для enterprise-выбора вне зависимости от RQS.

Следующее исследование серии: «Reasoning under uncertainty: как модели обрабатывают неполные и противоречивые данные» — запланировано на август 2026. Подписывайтесь на обновления.

Reasoning quality vs price: где проходит граница эффективности