NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

Рассуждения

Чат

nvidia/llama-3.3-nemotron-super-49b-v1.5

131 072 контекст

Вход: 14 ₽/1MВыход: 54 ₽/1M

Вход

Текст

Выход

Текст

Llama-3.3-Nemotron-Super-49B-v1.5 — это англоязычная модель для рассуждений и чатов с 49 миллиардами параметров, созданная на базе Meta Llama-3.3-70B-Instruct с контекстным окном 128K. Модель прошла дополнительное обучение для работы в агентных сценариях, таких как RAG и вызов инструментов, через этап SFT на данных по математике, программированию, науке и многошаговым диалогам. Последующее обучение с подкреплением включало оптимизацию предпочтений с учетом вознаграждения (RPO) для выравнивания ответов, RL с проверяемыми вознаграждениями (RLVR) для пошаговых рассуждений и итеративную DPO для оттачивания навыков использования инструментов.

Благодаря методу нейронного архитектурного поиска Puzzle на основе дистилляции, часть блоков внимания была заменена, а ширина слоев FFN изменена. Это позволило сократить объем занимаемой памяти и увеличить пропускную способность, обеспечивая возможность развертывания на одном графическом процессоре H100 или H200 при сохранении качества следования инструкциям и цепочек рассуждений.

Во внутренних тестах модель показала высокие результаты в логике и кодинге: MATH500 pass@1 составил 97.4, AIME-2024 — 87.5, AIME-2025 — 82.71, GPQA — 71.97, LiveCodeBench — 73.58 и MMLU-Pro (CoT) — 79.53. Модель ориентирована на практическую эффективность инференса с высокой скоростью генерации токенов и сниженным потреблением VRAM. Поддерживаются режимы с включенным и выключенным блоком рассуждений. Решение оптимально подходит для создания агентов, ассистентов и систем поиска в длинных контекстах, где важен баланс точности, стоимости и надежности работы с инструментами. Доступно через API alltokens.

Поддерживаемые параметры

Параметры, которые поддерживает эта модель в API-запросах

frequency_penaltyinclude_reasoningmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetool_choicetoolstop_ktop_p

Чат

Активность

Доступность

Провайдеры для NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

Система автоматически выбирает оптимального провайдера и переключается на резервный при сбоях.

Сортировка:

Производительность

Сравните разных провайдеров на AllTokens

Бенчмарки

Оценки модели из Artificial Analysis

Быстрый старт

https://api.alltokens.ru/api/v1Полная документация →

bash

curl https://api.alltokens.ru/api/v1/chat/completions \
  -H "Authorization: Bearer $ALLTOKENS_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/llama-3.3-nemotron-super-49b-v1.5",
    "messages": [
      {"role": "user", "content": "Привет! Кратко объясни, что умеешь."}
    ]
  }'

Технический профиль модели

NVIDIA: Llama 3.3 Nemotron Super 49B V1.5 от провайдера nvidia доступна через OpenAI-совместимый API AllTokens.

Страница агрегирует практические параметры для интеграции: стоимость входа и выхода, рабочий контекст, набор поддерживаемых параметров и сигналы для выбора модели под конкретные продакшн-сценарии.

Контекст

131 072 токенов

Цена входа

14 ₽ / 1M токенов

Цена выхода

54 ₽ / 1M токенов

Входные модальности

Текст

Выходные модальности

Текст

Добавлена в каталог

06.02.2026

Когда выбирать эту модель

Работа с длинными документами: регламенты, отчеты, knowledge base и большие диалоги.
Агентные сценарии с tool calling: вызовы функций, оркестрация шагов и интеграция с внутренними API.
Задачи, где нужен структурированный JSON-ответ и строгая схема результата.
Быстрый запуск через OpenAI-совместимый API без отдельной адаптации клиента под провайдера.

Что проверить перед запуском

Перед продом проверьте реальные лимиты по токенам и поведение модели на ваших длинных запросах.
Сделайте бюджетные алерты и лимиты расходов: итоговая стоимость зависит от длины ответов и ретраев.
Проверьте совместимость всех используемых параметров запроса в staging перед релизом.
Проведите A/B тест на вашем датасете: сравните качество, latency и стоимость с 1-2 альтернативами.

Похожие модели

NVIDIA: Nemotron 3 Super

nvidia

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Многосредовое обучение с подкреплением (RL) на 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

API-параметры: 15

Контекст: 262K

NVIDIA: Nemotron 3 Super (Бесплатно)

nvidia

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Мульти-средовое обучение с подкреплением в 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

API-параметры: 10

Контекст: 262K

NVIDIA: Llama Nemotron Embed VL 1B V2 (Бесплатно)

nvidia

Модель встраивания Llama Nemotron Embed VL 1B V2 оптимизирована для мультимодального поиска в задачах ответов на вопросы. Модель способна преобразовывать в векторные представления документы в виде изображений, текста или их комбинации. Поиск документов осуществляется на основе текстового запроса пользователя. Модель поддерживает обработку изображений, содержащих текст, таблицы, диаграммы и инфографику. Примечание: при использовании бесплатного доступа все запросы и результаты логируются для улучшения модели и сопутствующих сервисов. Пожалуйста, не загружайте личную, конфиденциальную или иную чувствительную информацию. Данный доступ предназначен только для ознакомительного использования. Не используйте его для производственных или критически важных бизнес-систем.

API-параметры: 4

Контекст: 131K

NVIDIA: Nemotron 3 Nano 30B A3B

nvidia

NVIDIA Nemotron 3 Nano 30B A3B — это компактная языковая модель с архитектурой Mixture of Experts (MoE), обеспечивающая высочайшую вычислительную эффективность и точность. Она предназначена для разработки специализированных агентных систем искусственного интеллекта. Модель является полностью открытой: доступны веса, наборы данных и методики обучения. Это позволяет разработчикам легко настраивать, оптимизировать и развертывать решение на собственной инфраструктуре для обеспечения максимальной конфиденциальности и безопасности. Примечание: при использовании бесплатного доступа все запросы и ответы сохраняются для улучшения модели и сопутствующих сервисов. Пожалуйста, не передавайте личную, конфиденциальную или иную чувствительную информацию. Данный доступ предназначен только для ознакомления и не должен использоваться в рабочих или критически важных бизнес-системах. На платформе alltokens вы можете протестировать возможности этой модели.

API-параметры: 15

Контекст: 262K

NVIDIA: Nemotron 3 Nano 30B A3B (Бесплатно)

nvidia

NVIDIA Nemotron 3 Nano 30B A3B — это компактная языковая модель с архитектурой Mixture of Experts (MoE), обладающая высочайшей вычислительной эффективностью и точностью. Она предназначена для разработки специализированных агентных систем искусственного интеллекта. Модель является полностью открытой: доступны веса, наборы данных и методики обучения. Это позволяет разработчикам легко настраивать, оптимизировать и развертывать решение на собственной инфраструктуре для обеспечения максимальной конфиденциальности и безопасности. Примечание: при использовании бесплатного доступа все запросы и ответы сохраняются для улучшения модели и сопутствующих сервисов. Пожалуйста, не передавайте персональную, конфиденциальную или иную конфиденциальную информацию. Данный доступ предназначен только для ознакомления. Не используйте его для производственных или критически важных бизнес-систем. На платформе alltokens вы можете протестировать возможности данной модели.

API-параметры: 8

Контекст: 256K

NVIDIA: Nemotron Nano 12B 2 VL

nvidia

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 12 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает точность трансформеров с эффективным моделированием последовательностей Mamba, что обеспечивает значительно более высокую пропускную способность и низкую задержку. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, подготовленных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки выпущены под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

API-параметры: 13

Контекст: 131K

Сравнение и новости

Подробный обзор модели

Новости, изменения цены, ключевые обновления и практические рекомендации по интеграции.

Открыть обзор

Модели для программирования

Выборка кодинг-моделей для разработки: инструменты, reasoning, качество генерации и скорость.

Смотреть подборку

Недорогие модели

Подборка доступных моделей ИИ с низкой стоимостью входных токенов и практичной производительностью.

Смотреть подборку