Alltokens

NVIDIA: Nemotron Nano 12B 2 VL

NVNvidiaОбновлено: 28 октября 2025 г.

Мультимодальная модель от NVIDIA с 12 миллиардами параметров, использующая гибридную архитектуру Transformer-Mamba для эффективного анализа видео и документов. Она обеспечивает высокую точность рассуждений при работе с длинными контекстами до 128k токенов, объединяя сильные стороны двух архитектур.

Использовать через API

Метрики

Вход

25 ₽/M

Выход

75 ₽/M

Контекст

131k tokens

Параметры

14

Релиз

28 октября 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetop_ktop_p

Технический обзор

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 12 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает точность трансформеров с эффективным моделированием последовательностей Mamba, что обеспечивает значительно более высокую пропускную способность и низкую задержку. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, подготовленных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки выпущены под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Модель

Для чего

Мультимодальная модель от NVIDIA с 12 миллиардами параметров, использующая гибридную архитектуру Transformer-Mamba для эффективного анализа видео и документов. Она обеспечивает высокую точность рассуждений при работе с длинными контекстами до 128k токенов, объединяя сильные стороны двух архитектур.

Контекст

131k

Цена ₽

25 / 75

Для чего

Обе модели поддерживают мультимодальный ввод (текст, изображения, видео) и ориентированы на сложные задачи рассуждения.

Контекст

262k

Цена ₽

15 / 46

Для чего

Является компактным мультимодальным решением, конкурирующим в сегменте эффективных моделей для анализа визуального контента.

Контекст

262k

Цена ₽

13 / 50

Когда выбирать

  • Необходим глубокий анализ видеоконтента и извлечение информации из динамических сцен
  • Требуется обработка сложных многостраничных документов с сохранением контекста до 131 072 токенов
  • Нужна высокая скорость обработки благодаря гибридной архитектуре Transformer-Mamba

Когда не выбирать

  • Требуется модель с максимальным количеством параметров для решения узкоспециализированных научных задач
  • Работа предполагает только текстовое взаимодействие без использования визуальных данных
  • Необходима поддержка специфических форматов вывода, не входящих в стандартный набор параметров модели

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru