Alltokens

NVIDIA: Nemotron Nano 12B 2 VL (Бесплатно)

NVNvidiaОбновлено: 28 октября 2025 г.

NVIDIA Nemotron Nano 12B 2 VL — это инновационная мультимодальная модель на базе гибридной архитектуры Transformer-Mamba, оптимизированная для глубокого анализа видео и сложных документов. Благодаря контекстному окну в 128 000 токенов, она эффективно справляется с задачами логического вывода и извлечения данных из визуального контента.

Использовать через API

Метрики

Вход

₽/M

Выход

₽/M

Контекст

128k tokens

Параметры

8

Релиз

28 октября 2025 г.

Поддерживаемые параметры

include_reasoningmax_tokensreasoningseedtemperaturetool_choicetoolstop_p

Технический обзор

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 2 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает в себе точность трансформеров с эффективным моделированием последовательностей Mamba. Это обеспечивает значительно более высокую пропускную способность и низкую задержку при работе. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, отобранных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки распространяются под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Для чего

NVIDIA Nemotron Nano 12B 2 VL — это инновационная мультимодальная модель на базе гибридной архитектуры Transformer-Mamba, оптимизированная для глубокого анализа видео и сложных документов. Благодаря контекстному окну в 128 000 токенов, она эффективно справляется с задачами логического вывода и извлечения данных из визуального контента.

Контекст

128k

Цена ₽

— / —

Для чего

Обе модели поддерживают мультимодальный ввод, включая видео, и доступны для использования без оплаты на платформе alltokens.

Контекст

1M

Цена ₽

— / —

Модель

Для чего

Является прямым конкурентом в категории компактных мультимодальных моделей, ориентированных на высокую скорость обработки визуальных данных.

Контекст

16k

Цена ₽

13 / 13

Когда выбирать

  • Необходим детальный анализ видеофайлов и понимание динамических сцен
  • Требуется высокая точность распознавания текста и структур в сложных документах
  • Нужна эффективная работа с длинным контекстом до 128k токенов при ограниченных ресурсах

Когда не выбирать

  • Требуется генерация изображений или видео, так как модель работает только на текстовый вывод
  • Необходима работа исключительно с программным кодом без визуальной составляющей
  • Для задач, требующих максимальных параметров флагманских моделей сверх 12 миллиардов параметров

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru