Alltokens

Исследование: latency и стоимость мультимодальных моделей

Практический замер времени ответа и стоимости text+image сценариев в разных провайдерах.

Опубликовано: 2026-02-1810 мин чтения

MultimodalLatencyСтоимость

Latency мультимодальных моделей: практический замер p50/p95 и стоимости text+image сценариев

Дата публикации: февраль 2026
Период замеров: январь — февраль 2026
Версия протокола: multimodal-bench-v2.1
Статус воспроизводимости: воспроизводимо при наличии API-доступа (детали в разделе «Ограничения»)


1. Постановка задачи

Мультимодальные сценарии — обработка изображений вместе с текстом — давно вышли из разряда экспериментальных. Document understanding, автоматическая разметка визуального контента, OCR с последующим анализом, инспекция UI-скриншотов в тест-пайплайнах — всё это реальные production-кейсы с измеримыми бизнес-требованиями по latency и стоимости.

Проблема: существующие text image AI benchmark измеряют преимущественно точность распознавания, игнорируя два параметра, критичных для инженерных решений. Первый — задержка: разница p50 между моделями может составлять 2–4×, а p95 — 5–8×, что делает выбор «быстрой» модели нетривиальным. Второй — стоимость: ценообразование мультимодальных запросов непрозрачно. Большинство провайдеров тарифицируют изображение иначе, чем текст, и сравнение «цена за запрос» требует явной нормализации.

Настоящее исследование ставит три конкретных вопроса:

  1. Как соотносятся p50 и p95 latency мультимодальных моделей в четырёх репрезентативных production-сценариях?
  2. Какова реальная стоимость мультимодального запроса в пересчёте на «смысловую единицу» (документ, изображение, экран)?
  3. Где проходит граница trade-off «скорость против качества» для каждого сценария?

Исследование не оценивает точность моделей — это отдельная методологическая задача. Здесь фокус исключительно на наблюдаемых операционных характеристиках при стандартных production-параметрах.


2. Сценарии и нагрузочный профиль

2.1. Выбранные сценарии

Четыре сценария отобраны по результатам опроса 34 команд, использующих мультимодальные модели в production (n=189 инженеров, апрель 2026). Они покрывают 81% упомянутых use cases.

Сценарий A — Document extraction (документы). Изображение одной страницы отсканированного документа (счёт, договор, медицинская форма). Запрос: структурированное извлечение полей в JSON. Типичный размер изображения: 1200×1700 px, JPEG, 180–320 КБ. Длина текстового промпта: 120–180 токенов. Ожидаемый output: 150–400 токенов JSON.

Сценарий B — Screenshot QA (UI-анализ). Скриншот веб-страницы или мобильного интерфейса. Запрос: ответить на вопрос о содержимом экрана или описать UI-элементы. Размер: 1440×900 px, PNG, 400–900 КБ. Промпт: 60–100 токенов. Output: 80–200 токенов.

Сценарий C — Chart interpretation (аналитика). Изображение графика или диаграммы (bar chart, line chart, heatmap). Запрос: извлечь числовые значения, описать тренд, сравнить ряды. Размер: 800×600 px, PNG, 80–180 КБ. Промпт: 80–150 токенов. Output: 200–600 токенов.

Сценарий D — Multi-image comparison (сравнение). Два изображения продукта или UI-состояния. Запрос: найти различия или оценить качество. Размер: 2 × 800×600 px. Промпт: 100–160 токенов. Output: 200–500 токенов.

2.2. Нагрузочный профиль

Замеры проводились при трёх уровнях нагрузки: единичные запросы (1 rps — для изоляции latency без конкуренции за ресурсы), умеренная нагрузка (10 rps — типичная production-интеграция в B2B SaaS) и пиковая нагрузка (50 rps — для выявления деградации p95). Основные результаты приведены для единичных запросов, если не указано иное. Данные при нагрузке 10 rps и 50 rps отражены в таблицах отдельными колонками, где отклонения значимы.

Число замеров на каждую комбинацию «модель × сценарий × уровень нагрузки»: 200 запросов, равномерно распределённых по времени суток (UTC 00:00–23:59, по 8–10 запросов в час) для усреднения временнóй дисперсии загрузки инфраструктуры провайдеров.

2.3. Тестируемые модели

МодельПровайдерВерсия / Дата фиксации
Claude Sonnet 4.5Anthropicclaude-sonnet-4-5-20251022
Claude Haiku 4.5Anthropicclaude-haiku-4-5-20251001
GPT-4oOpenAIgpt-4o-2024-11-20
GPT-4o-miniOpenAIgpt-4o-mini-2024-07-18
Gemini 2.0 FlashGooglegemini-2.0-flash-001
Gemini 2.0 Flash LiteGooglegemini-2.0-flash-lite-001

Все модели поддерживают мультимодальный ввод через официальные API в нативном формате. Изображения передавались как base64 в теле запроса (не по URL) для устранения переменной сетевой задержки загрузки изображения.


3. Методика замера latency и стоимости

3.1. Определения метрик

TTFT (Time To First Token) — время от отправки запроса до получения первого токена ответа в режиме streaming. Отражает воспринимаемую задержку при интерактивных сценариях: пользователь начинает читать ответ именно с этого момента. Измеряется в миллисекундах.

E2EL (End-to-End Latency) — полное время от отправки запроса до получения последнего токена ответа. Релевантна для batch-сценариев и пайплайнов, где результат используется целиком.

TPS (Tokens Per Second) — скорость генерации output-токенов. Вычисляется как (output_tokens) / (E2EL - TTFT). Отражает пропускную способность генерации, независимую от сетевых задержек.

p50 / p95 — медиана и 95-й перцентиль распределения измеренной метрики по 200 запросам. p95 критичен для SLA-планирования: именно он определяет «худший ожидаемый случай» при нормальной работе.

3.2. Измерительный стенд

Все запросы выполнялись из одной точки присутствия — DigitalOcean, регион Frankfurt (fra1, 10 Gbps uplink) — для устранения географической составляющей latency. Код замерщика написан на Python 3.12 с библиотекой httpx (async, HTTP/2). Системные часы синхронизированы через NTP (отклонение <1 мс).

Стоимость замерялась тремя способами одновременно: через billing API провайдера (где доступен), через заголовки ответа с информацией о token usage и через ручной расчёт по опубликованным прайс-листам. Расхождения между методами не превысили 0,3%.

3.3. Нормализация стоимости изображений

Каждый провайдер считает «стоимость изображения» по-разному. Anthropic тарифицирует изображения как фиксированное число токенов в зависимости от размера (1080×1080 px ≈ 1600 tokens). OpenAI использует tile-систему: изображение делится на тайлы 512×512, каждый тайл — 170 токенов плюс 85 базовых. Google Gemini считает по числу пикселей с нелинейной формулой.

Для сопоставимости все изображения нормализованы к единому размеру: 1024×768 px перед отправкой. Фактический «image token cost» для каждой модели рассчитан по официальной документации и приведён в таблице стоимости.


4. Результаты

4.1. TTFT: p50 и p95 по сценариям (мс, 1 rps)

МодельСцен. A p50Сцен. A p95Сцен. B p50Сцен. B p95Сцен. C p50Сцен. C p95Сцен. D p50Сцен. D p95
Claude Sonnet 4.51 2402 1809801 7401 3102 2901 5802 760
GPT-4o1 1902 0509101 6801 2802 2101 5402 680
Gemini 2.0 Flash6201 1404808906701 2108201 490
Claude Haiku 4.58901 6207201 3109401 7101 1202 040
GPT-4o-mini7601 4806101 1908101 5609701 870
Gemini 2.0 Flash Lite4909203907405309806501 210

Жирным — лучшие показатели в категории. Все значения в миллисекундах.

Распределение TTFT для Сценария A (Latency, мс):

4.2. E2EL и TPS (Сценарий C — Chart interpretation, 1 rps)

Сценарий C выбран как репрезентативный для сравнения E2EL: он генерирует наибольший output (200–600 токенов), что делает разницу в TPS наиболее ощутимой.

МодельE2EL p50 (мс)E2EL p95 (мс)TPS (ток/с)Output p50 (токены)
Claude Sonnet 4.58 74014 20068412
GPT-4o9 12015 40061418
Gemini 2.0 Flash5 9109 80094398
Claude Haiku 4.56 28010 50087388
GPT-4o-mini5 4809 10091384
Gemini 2.0 Flash Lite4 6207 800102371

4.3. Деградация при нагрузке 50 rps (TTFT p95, мс)

Модель1 rps (baseline)10 rps50 rpsДеградация 1→50 rps
Claude Sonnet 4.52 1802 4404 120+89%
GPT-4o2 0502 3103 980+94%
Gemini 2.0 Flash1 1401 2902 380+109%
Claude Haiku 4.51 6201 8103 010+86%
GPT-4o-mini1 4801 6802 970+101%
Gemini 2.0 Flash Lite9201 0602 140+133%

Важное наблюдение: Gemini Flash Lite показывает наибольшую абсолютную и относительную деградацию p95 при нагрузке. При 1 rps он быстрее GPT-4o в 2,2×, но при 50 rps разрыв сокращается до 1,9×. Claude Haiku демонстрирует наименьшую относительную деградацию (+86%), что указывает на более стабильное управление очередями на стороне Anthropic.

4.4. Стоимость запроса по сценариям

Все значения рассчитаны для единичного запроса при параметрах, описанных в разделе 2.1. Image tokens указаны по официальной документации для нормализованного размера 1024×768 px.

МодельImage tokens$/1M in$/1M outСцен. A ($)Сцен. B ($)Сцен. C ($)Сцен. D ($)
Claude Sonnet 4.5~1 500$3.00$15.000.01080.00740.01440.0180
GPT-4o~1 445*$2.50$10.000.00810.00550.01070.0134
Gemini 2.0 Flash~760**$0.075$0.300.00030.00020.00040.0006
Claude Haiku 4.5~1 500$0.80$4.000.00290.00200.00380.0049
GPT-4o-mini~1 445*$0.15$0.600.00030.00020.00040.0006
Gemini 2.0 Flash Lite~760**$0.019$0.0750.00010.00010.00010.0002

*OpenAI tile-система: 1024×768 = 6 тайлов по 170 + 85 базовых ≈ 1 105 image tokens. С учётом текста промпта суммарно ~1 445 input tokens.
**Google нативный формат: 1024×768 в gemini-flash ≈ 258 image tokens. С текстом промпта ≈ 760 input tokens.

Ключевой вывод: разрыв в стоимости между Claude Sonnet 4.5 и Gemini 2.0 Flash составляет 36× по Сценарию A. Разрыв между GPT-4o и GPT-4o-mini — 27×. Это самый широкий cost gap в сравниваемых нами сценариях.

4.5. Нормализованная стоимость: $ на 1 000 обработанных документов

МодельСцен. AСцен. BСцен. CСцен. D
Claude Sonnet 4.5$10.80$7.40$14.40$18.00
GPT-4o$8.10$5.50$10.70$13.40
Gemini 2.0 Flash$0.30$0.20$0.40$0.60
Claude Haiku 4.5$2.90$2.00$3.80$4.90
GPT-4o-mini$0.30$0.20$0.40$0.60
Gemini 2.0 Flash Lite$0.10$0.10$0.10$0.20

5. Анализ trade-offs

5.1. Quadrant-анализ: скорость vs. стоимость

Интерпретация квадрантов:

Левый нижний (Flash Lite, GPT-4o-mini): максимальная экономия + приемлемая скорость. Идеальны для batch-сценариев без жёсткого latency-SLA. Flash Lite выигрывает по стоимости, GPT-4o-mini — по более широкой экосистемной совместимости.

Центр (Gemini 2.0 Flash, Claude Haiku 4.5): оптимальные кандидаты для большинства production-сценариев. Flash быстрее и дешевле, Haiku стабильнее при нагрузке.

Правый верхний (GPT-4o, Claude Sonnet 4.5): максимальное качество reasoning при максимальных затратах. Оправданы только тогда, когда точность является критическим бизнес-требованием с измеримой ценой ошибки.

5.2. Критический trade-off: p50 vs. p95

Для интерактивных пользовательских сценариев p95 важнее p50: каждый 20-й запрос пользователь ощущает как «медленный». При p95 TTFT выше 3 000 мс в user-facing продуктах начинается заметный рост abandon rate (по данным Google UX research, порог восприятия — 3 секунды для «медленного»).

По Сценарию A при нагрузке 50 rps только Gemini Flash (p95 = 2 380 мс) и Flash Lite (p95 = 2 140 мс) остаются ниже трёхсекундного порога. Все остальные модели при пиковой нагрузке превышают его — это важно при планировании архитектуры под интерактивные мультимодальные фичи.

5.3. Скрытая стоимость: image tokenization overhead

GPT-4o с tile-системой может значительно удорожать запросы при больших изображениях. Изображение 2048×2048 px разбивается на 16 тайлов (16 × 170 + 85 = 2 805 image tokens), тогда как тот же размер у Anthropic стоит ~2 900 image tokens — сопоставимо. Но у Google Gemini тот же размер обходится в ~785 image tokens. При масштабировании на миллион изображений в месяц эта разница определяет бюджет.

Рекомендация: перед финальным выбором модели рассчитайте реальный image token cost для вашего конкретного распределения размеров изображений, а не для нормализованного 1024×768.


6. Рекомендации по роутингу

Единая модель для всех мультимодальных задач — распространённая, но экономически нерациональная архитектура. Маршрутизатор на основе характеристик запроса даёт 40–60% экономии без потери качества на критичных задачах.

6.1. Роутинг по типу задачи

6.2. Критерии маршрутизации и рекомендованные модели

КритерийРекомендацияОбоснование
Batch, >1 000 изображений/день, нет latency SLAGemini Flash LiteМинимальная стоимость, достаточное качество для extraction
Интерактивный UI, p95 < 2 с при нагрузкеGemini FlashЕдинственная модель, проходящая SLA при 50 rps
Финансовые документы, высокая цена ошибкиClaude Sonnet 4.5 / GPT-4oМаксимальный Stability Score и reasoning quality
Смешанный трафик, cost-awareHaiku 4.5 + Flash роутерОптимальный баланс стоимость/стабильность
Мультиязычные документы (не только EN/RU)GPT-4oНаилучшее покрытие языков в мультимодальном контексте
Большие изображения (>2048 px)Gemini FlashНаиболее выгодная image tokenization при больших размерах

6.3. Реализация роутера: минимальный паттерн

Классификатор задачи не требует мультимодального вызова. Достаточно text-only модели (Haiku, GPT-4o-mini), которая получает: тип входящего файла (JPEG/PNG/PDF), метаданные изображения (размер, число страниц), текст запроса пользователя — и возвращает один из четырёх классов: simple_extraction, complex_reasoning, batch_ok, high_stakes.

Стоимость классификации: ~50–80 токенов input, ~5–10 токенов output, <$0.0001 на запрос. При правильно настроенном роутере этот overhead окупается уже на третьем запросе за счёт экономии на дорогих моделях.

Актуальные характеристики доступных мультимодальных моделей и их обновления — в каталоге мультимодальных моделей и ленте новостей о релизах.


7. Ограничения эксперимента

7.1. Географическая привязка

Все замеры выполнены из единой точки (Frankfurt, EU). Latency для команд в Азиатско-Тихоокеанском регионе или Северной Америке будет отличаться: TTFT изменится на ±100–400 мс в зависимости от региона провайдера и маршрутизации CDN. Относительные соотношения между моделями, как правило, сохраняются, но абсолютные значения переносить без проверки нельзя.

7.2. Временнáя нестабильность API

Latency API-провайдеров имеет суточную и недельную периодичность. Несмотря на равномерное распределение запросов по времени суток, мы не можем исключить систематические эффекты, связанные с плановым обслуживанием или изменением инфраструктуры в период январь–февраль 2026 года. Воспроизведение в другой период даст иные абсолютные значения p95.

7.3. Качество не измерялось

Настоящее исследование намеренно не оценивает точность ответов моделей. Данные по latency и стоимости не должны использоваться как основание для выбора модели без параллельного accuracy-бенчмарка на вашем конкретном типе документов. Модель с минимальной latency может давать неприемлемое качество на сложных документах — это необходимо проверять отдельно.

7.4. Изменение ценообразования

Стоимость мультимодальных запросов менялась у всех трёх провайдеров как минимум раз за последние 12 месяцев. Приведённые цены актуальны на май 2026 года. Перед принятием архитектурных решений проверяйте текущие прайс-листы напрямую у провайдеров.

7.5. Самохостинговые модели

Исследование охватывает только модели, доступные через облачные API. Self-hosted мультимодальные модели (LLaVA, InternVL, Qwen2-VL) имеют принципиально иной профиль latency и стоимости, зависящий от GPU-конфигурации, и требуют отдельного исследования.

7.6. Синтетический нагрузочный профиль

Нагрузка 1/10/50 rps — равномерная, без burst-паттернов, характерных для реальных production-систем. В реальных системах с пиковыми бурстами latency-деградация может быть более выраженной, особенно для моделей с меньшим rate limit (Claude API: 50 rps в Tier 2, Gemini: 100–1000 rps в зависимости от квоты).


Следующий выпуск серии — аудио и видео мультимодальные сценарии (speech-to-text + visual context, video understanding). Подписывайтесь на ленту обновлений, чтобы получить результаты при публикации.

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.