Alltokens

Inception: Mercury 2

INInceptionОбновлено: 04 марта 2026 г.

Mercury 2 — это инновационная диффузионная модель (dLLM), обеспечивающая рекордную скорость генерации свыше 1000 токенов в секунду. Она сочетает в себе глубокие рассуждения с параллельной обработкой данных, что делает её в 5 раз быстрее конкурентов при низкой стоимости эксплуатации.

Использовать через API

Метрики

Вход

34 ₽/M

Выход

101 ₽/M

Контекст

128k tokens

Параметры

9

Релиз

04 марта 2026 г.

Поддерживаемые параметры

include_reasoningmax_tokensreasoningresponse_formatstopstructured_outputstemperaturetool_choicetools

Технический обзор

Mercury 2 — это невероятно быстрая модель рассуждений и первая модель рассуждений на основе диффузии (dLLM). Вместо последовательной генерации токенов Mercury 2 производит и уточняет несколько токенов параллельно, достигая более 1000 токенов/сек на стандартных GPU. Mercury 2 в 5+ раз быстрее ведущих оптимизированных по скорости моделей, таких как Claude 4.5 Haiku и GPT 5 Mini, при значительно меньшей стоимости. Mercury 2 поддерживает настраиваемые уровни рассуждений, 128K контекста, встроенное использование инструментов и вывод JSON с соответствием схеме. Разработана для рабочих процессов кодирования, где задержка накапливается, для реального голосового поиска и циклов агентов. Совместима с OpenAI API. Подробнее в блоге.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Модель

Inception: Mercury 2Текущая

Для чего

Mercury 2 — это инновационная диффузионная модель (dLLM), обеспечивающая рекордную скорость генерации свыше 1000 токенов в секунду. Она сочетает в себе глубокие рассуждения с параллельной обработкой данных, что делает её в 5 раз быстрее конкурентов при низкой стоимости эксплуатации.

Контекст

128k

Цена ₽

34 / 101

Модель

Для чего

Предыдущая версия в линейке, обладающая схожей ценовой политикой, но уступающая в скорости и архитектурных решениях.

Контекст

128k

Цена ₽

34 / 101

Для чего

Близкий аналог по стоимости токенов и производительности в задачах, требующих логического вывода.

Контекст

164k

Цена ₽

29 / 106

Когда выбирать

  • Для разработки сложных агентских циклов и рабочих процессов кодинга, где критична минимальная задержка.
  • При необходимости интеграции ИИ в голосовые интерфейсы или поисковые системы реального времени.
  • Если требуется высокая скорость генерации при сохранении возможности глубокого логического рассуждения.

Когда не выбирать

  • Для простых задач генерации текста, где не требуются продвинутые способности к рассуждению.
  • Если ваш проект не оптимизирован под параллельную обработку токенов, предлагаемую архитектурой dLLM.
  • В сценариях, где не важна экстремально высокая скорость ответа (более 1000 токенов/сек).

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.