nvidia/llama-3.3-nemotron-super-49b-v1.5Llama-3.3-Nemotron-Super-49B-v1.5 — это англоязычная модель для рассуждений и чатов с 49 миллиардами параметров, созданная на базе Meta Llama-3.3-70B-Instruct с контекстным окном 128K. Модель прошла дополнительное обучение для работы в агентных сценариях, таких как RAG и вызов инструментов, через этап SFT на данных по математике, программированию, науке и многошаговым диалогам. Последующее обучение с подкреплением включало оптимизацию предпочтений с учетом вознаграждения (RPO) для выравнивания ответов, RL с проверяемыми вознаграждениями (RLVR) для пошаговых рассуждений и итеративную DPO для оттачивания навыков использования инструментов.
Благодаря методу нейронного архитектурного поиска Puzzle на основе дистилляции, часть блоков внимания была заменена, а ширина слоев FFN изменена. Это позволило сократить объем занимаемой памяти и увеличить пропускную способность, обеспечивая возможность развертывания на одном графическом процессоре H100 или H200 при сохранении качества следования инструкциям и цепочек рассуждений.
Во внутренних тестах модель показала высокие результаты в логике и кодинге: MATH500 pass@1 составил 97.4, AIME-2024 — 87.5, AIME-2025 — 82.71, GPQA — 71.97, LiveCodeBench — 73.58 и MMLU-Pro (CoT) — 79.53. Модель ориентирована на практическую эффективность инференса с высокой скоростью генерации токенов и сниженным потреблением VRAM. Поддерживаются режимы с включенным и выключенным блоком рассуждений. Решение оптимально подходит для создания агентов, ассистентов и систем поиска в длинных контекстах, где важен баланс точности, стоимости и надежности работы с инструментами. Доступно через API alltokens.
Параметры, которые поддерживает эта модель в API-запросах
Система автоматически выбирает оптимального провайдера и переключается на резервный при сбоях.
Сравните разных провайдеров на AllTokens
Оценки модели из Artificial Analysis
curl https://api.alltokens.ru/api/v1/chat/completions \
-H "Authorization: Bearer $ALLTOKENS_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "nvidia/llama-3.3-nemotron-super-49b-v1.5",
"messages": [
{"role": "user", "content": "Привет! Кратко объясни, что умеешь."}
]
}'NVIDIA: Llama 3.3 Nemotron Super 49B V1.5 от провайдера nvidia доступна через OpenAI-совместимый API AllTokens.
Страница агрегирует практические параметры для интеграции: стоимость входа и выхода, рабочий контекст, набор поддерживаемых параметров и сигналы для выбора модели под конкретные продакшн-сценарии.
Контекст
131 072 токенов
Цена входа
13 ₽ / 1M токенов
Цена выхода
50 ₽ / 1M токенов
Входные модальности
Выходные модальности
NVIDIA: Nemotron 3 Nano Omni (Бесплатно)
nvidia
NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель с 30 миллиардами параметров, разработанная для работы в качестве подсистемы восприятия и контекста в корпоративных агентных системах. Модель принимает текст, изображения, видео и другие виды данных.
NVIDIA: Nemotron 3 Super
nvidia
NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Многосредовое обучение с подкреплением (RL) на 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.
Подробный обзор модели
Новости, изменения цены, ключевые обновления и практические рекомендации по интеграции.
Открыть обзор
Модели для программирования
Выборка кодинг-моделей для разработки: инструменты, reasoning, качество генерации и скорость.
Смотреть подборку
Недорогие модели
Подборка доступных моделей ИИ с низкой стоимостью входных токенов и практичной производительностью.
Смотреть подборку
Добавлена в каталог
06.02.2026