Alltokens

Xiaomi: MiMo-V2-Omni

XIXiaomiОбновлено: 18 марта 2026 г.

MiMo-V2-Omni от Xiaomi — это передовая мультимодальная модель, способная нативно обрабатывать изображения, видео и аудио в единой архитектуре. Благодаря контекстному окну в 256K и продвинутым агентским навыкам, она эффективно справляется с многошаговым планированием и исполнением кода.

Использовать через API

Метрики

Вход

48 ₽/M

Выход

240 ₽/M

Контекст

262k tokens

Параметры

11

Релиз

18 марта 2026 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoningmax_tokenspresence_penaltyreasoningresponse_formatstoptemperaturetool_choicetoolstop_p

Технический обзор

MiMo-V2-Omni - это передовая омни-модель, которая нативно обрабатывает изображения, видео и аудио в единой архитектуре. Она сочетает в себе мощное мультимодальное восприятие с агентными возможностями - визуальную привязку, многошаговое планирование, использование инструментов и выполнение кода, что делает ее идеальной для сложных реальных задач, охватывающих различные модальности. Контекстное окно 256K.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Модель

Xiaomi: MiMo-V2-OmniТекущая

Для чего

MiMo-V2-Omni от Xiaomi — это передовая мультимодальная модель, способная нативно обрабатывать изображения, видео и аудио в единой архитектуре. Благодаря контекстному окну в 256K и продвинутым агентским навыкам, она эффективно справляется с многошаговым планированием и исполнением кода.

Контекст

262k

Цена ₽

48 / 240

Модель

Для чего

Обе модели поддерживают одинаковый набор входных модальностей, включая видео и аудио, что делает их прямыми конкурентами в мультимодальном анализе.

Контекст

262k

Цена ₽

— / —

Для чего

Модели имеют идентичную стоимость токенов и ориентированы на решение сложных задач, требующих глубокого понимания контекста.

Контекст

131k

Цена ₽

48 / 240

Когда выбирать

  • Необходим комплексный анализ видео или аудио материалов в рамках одного запроса
  • Требуется выполнение кода или использование внешних инструментов для решения задач
  • Работа с объемными документами или длинными медиафайлами благодаря контексту 256K

Когда не выбирать

  • Задачи ограничены только текстовым взаимодействием без необходимости мультимодальности
  • Требуется генерация изображений или видео, так как модель работает только на текстовый вывод
  • Бюджет ограничен, и не требуются специфические агентские функции планирования

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.