В чем преимущество архитектуры Transformer-Mamba в этой модели?

Гибридная архитектура позволяет сочетать высокую точность классических трансформеров с эффективностью и скоростью модели Mamba при работе с длинными последовательностями данных.

Какие типы данных может анализировать Nemotron Nano 2 VL?

Модель является мультимодальной и способна обрабатывать текстовые запросы, статические изображения и видеофайлы для генерации текстовых ответов.

Можно ли использовать модель через alltokens для анализа документов?

Да, благодаря поддержке контекстного окна в 128k токенов и специализации на Document Intelligence, модель отлично подходит для разбора сложных документов через API alltokens.

NVIDIA: Nemotron Nano 12B 2 VL

NVNvidiaОбновлено: 28 октября 2025 г.

Мультимодальная модель от NVIDIA с 12 миллиардами параметров, использующая гибридную архитектуру Transformer-Mamba для эффективного анализа видео и документов. Она обеспечивает высокую точность рассуждений при работе с длинными контекстами до 128k токенов, объединяя сильные стороны двух архитектур.

Использовать через API

Метрики

Вход

25 ₽/M

Выход

75 ₽/M

Контекст

131k tokens

Параметры

Релиз

28 октября 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetop_ktop_p

Технический обзор

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 12 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает точность трансформеров с эффективным моделированием последовательностей Mamba, что обеспечивает значительно более высокую пропускную способность и низкую задержку. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, подготовленных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки выпущены под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования Недорогие модели

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

NVIDIA: Nemotron Nano 12B 2 VLТекущая

Для чего

Контекст

131k

Цена ₽

25 / 75

NVIDIA: Nemotron Nano 12B 2 VLТекущая

131k

25 / 75

Модель

Google: Gemma 4 31B

Для чего

Обе модели поддерживают мультимодальный ввод (текст, изображения, видео) и ориентированы на сложные задачи рассуждения.

Контекст

262k

Цена ₽

15 / 46

Google: Gemma 4 31B

262k

15 / 46

Модель

ByteDance Seed: Seed-2.0-Mini

Для чего

Является компактным мультимодальным решением, конкурирующим в сегменте эффективных моделей для анализа визуального контента.

Контекст

262k

Цена ₽

13 / 50

ByteDance Seed: Seed-2.0-Mini

262k

13 / 50

Когда выбирать

Необходим глубокий анализ видеоконтента и извлечение информации из динамических сцен
Требуется обработка сложных многостраничных документов с сохранением контекста до 131 072 токенов
Нужна высокая скорость обработки благодаря гибридной архитектуре Transformer-Mamba

Когда не выбирать

Требуется модель с максимальным количеством параметров для решения узкоспециализированных научных задач
Работа предполагает только текстовое взаимодействие без использования визуальных данных
Необходима поддержка специфических форматов вывода, не входящих в стандартный набор параметров модели