Какова главная особенность архитектуры MiMo-V2-Flash?

Модель использует гибридную архитектуру Mixture-of-Experts (MoE), где из 309 миллиардов параметров активными при каждом запросе остаются только 15 миллиардов, что значительно ускоряет работу.

Какой объем текста может обработать модель за один раз?

MiMo-V2-Flash поддерживает контекстное окно до 262 144 токенов, что позволяет анализировать целые книги или крупные репозитории программного кода.

Можно ли использовать модель через alltokens для сложных интеграций?

Да, модель поддерживает широкий набор параметров, включая structured_outputs, инструменты (tools) и настройку логитов, что делает её подходящей для профессиональной разработки.

Xiaomi: MiMo-V2-Flash

XIXiaomiОбновлено: 14 декабря 2025 г.

MiMo-V2-Flash — это открытая языковая модель от Xiaomi, построенная на архитектуре Mixture-of-Experts с гибридным вниманием. При общем объеме в 309 млрд параметров она задействует лишь 15 млрд активных весов, обеспечивая высокую скорость генерации при огромном контекстном окне в 262 тысячи токенов.

Использовать через API

Метрики

Вход

13 ₽/M

Выход

38 ₽/M

Контекст

262k tokens

Параметры

Релиз

14 декабря 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoningmax_tokenspresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetool_choicetoolstop_ktop_p

Технический обзор

MiMo-V2-Flash — это базовая языковая модель с открытым исходным кодом, разработанная компанией Xiaomi. Модель построена на архитектуре Mixture-of-Experts с общим количеством параметров 309 млрд и 15 млрд активных параметров, а также использует гибридную архитектуру внимания. MiMo-V2-Flash поддерживает переключение режима гибридного мышления и контекстное окно размером 256K токенов. Модель демонстрирует выдающиеся результаты в логических рассуждениях, написании кода и сценариях работы ИИ-агентов. В тестах SWE-bench Verified и SWE-bench Multilingual MiMo-V2-Flash занимает первое место среди моделей с открытым исходным кодом в мире, обеспечивая производительность, сопоставимую с Claude Sonnet 4.5, при стоимости всего около 3,5% от ее цены. Пользователи alltokens могут управлять поведением модели при рассуждении с помощью логического параметра reasoning enabled.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования Недорогие модели Модели с длинным контекстом

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Xiaomi: MiMo-V2-FlashТекущая

Для чего

Контекст

262k

Цена ₽

13 / 38

Xiaomi: MiMo-V2-FlashТекущая

262k

13 / 38

Модель

Qwen: Qwen3 30B A3B Instruct 2507

Для чего

Обе модели используют архитектуру MoE и ориентированы на высокую производительность в сегменте Flash-решений.

Контекст

262k

Цена ₽

12 / 38

Qwen: Qwen3 30B A3B Instruct 2507

Обе модели используют архитектуру MoE и ориентированы на высокую производительность в сегменте Flash-решений.

262k

12 / 38

Модель

StepFun: Step 3.5 Flash

Для чего

Является прямым конкурентом по скорости обработки длинных контекстов и эффективности в задачах реального времени.

Контекст

262k

Цена ₽

13 / 38

StepFun: Step 3.5 Flash

262k

13 / 38

Когда выбирать

Необходима обработка сверхдлинных документов или больших массивов кода благодаря контексту 262K.
Требуется высокая скорость отклика в интерактивных приложениях за счет оптимизированной архитектуры MoE.
Нужна поддержка структурированного вывода и инструментов (tools) для автоматизации рабочих процессов.

Когда не выбирать

Требуется максимально компактная модель для локального запуска на устройствах с малым объемом памяти.
Задачи подразумевают работу исключительно с мультимодальным контентом, так как модель ориентирована на текст.
Необходима модель с максимальным количеством активных параметров для решения сложнейших логических задач.