Что такое диффузионная LLM (dLLM) в Mercury 2?

Это архитектура, которая позволяет модели генерировать и уточнять несколько токенов параллельно, а не последовательно, что обеспечивает скорость более 1000 токенов в секунду.

Поддерживает ли модель работу с инструментами и JSON?

Да, Mercury 2 поддерживает нативный вызов инструментов (tool use) и вывод данных в строгом соответствии с JSON-схемами.

Как можно протестировать Mercury 2?

Модель доступна через API на платформе alltokens, она полностью совместима с форматом OpenAI API и поддерживает контекст до 128K токенов.

Inception: Mercury 2

INInceptionОбновлено: 04 марта 2026 г.

Mercury 2 — это инновационная диффузионная модель (dLLM), обеспечивающая рекордную скорость генерации свыше 1000 токенов в секунду. Она сочетает в себе глубокие рассуждения с параллельной обработкой данных, что делает её в 5 раз быстрее конкурентов при низкой стоимости эксплуатации.

Использовать через API

Метрики

Вход

32 ₽/M

Выход

94 ₽/M

Контекст

128k tokens

Параметры

Релиз

04 марта 2026 г.

Поддерживаемые параметры

include_reasoningmax_tokensreasoningresponse_formatstopstructured_outputstemperaturetool_choicetools

Технический обзор

Mercury 2 — это невероятно быстрая модель рассуждений и первая модель рассуждений на основе диффузии (dLLM). Вместо последовательной генерации токенов Mercury 2 производит и уточняет несколько токенов параллельно, достигая более 1000 токенов/сек на стандартных GPU. Mercury 2 в 5+ раз быстрее ведущих оптимизированных по скорости моделей, таких как Claude 4.5 Haiku и GPT 5 Mini, при значительно меньшей стоимости. Mercury 2 поддерживает настраиваемые уровни рассуждений, 128K контекста, встроенное использование инструментов и вывод JSON с соответствием схеме. Разработана для рабочих процессов кодирования, где задержка накапливается, для реального голосового поиска и циклов агентов. Совместима с OpenAI API. Подробнее в блоге.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования Недорогие модели

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Inception: Mercury 2Текущая

Для чего

Контекст

128k

Цена ₽

32 / 94

Inception: Mercury 2Текущая

128k

32 / 94

Модель

Inception: Mercury

Для чего

Предыдущая версия в линейке, обладающая схожей ценовой политикой, но уступающая в скорости и архитектурных решениях.

Контекст

128k

Цена ₽

32 / 94

Inception: Mercury

128k

32 / 94

Модель

DeepSeek: DeepSeek V3.1 Terminus

Для чего

Близкий аналог по стоимости токенов и производительности в задачах, требующих логического вывода.

Контекст

164k

Цена ₽

34 / 118

DeepSeek: DeepSeek V3.1 Terminus

Близкий аналог по стоимости токенов и производительности в задачах, требующих логического вывода.

164k

34 / 118

Когда выбирать

Для разработки сложных агентских циклов и рабочих процессов кодинга, где критична минимальная задержка.
При необходимости интеграции ИИ в голосовые интерфейсы или поисковые системы реального времени.
Если требуется высокая скорость генерации при сохранении возможности глубокого логического рассуждения.

Когда не выбирать

Для простых задач генерации текста, где не требуются продвинутые способности к рассуждению.
Если ваш проект не оптимизирован под параллельную обработку токенов, предлагаемую архитектурой dLLM.
В сценариях, где не важна экстремально высокая скорость ответа (более 1000 токенов/сек).