Alltokens

NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

NVNvidiaОбновлено: 10 октября 2025 г.

NVIDIA Llama 3.3 Nemotron Super 49B — это оптимизированная версия модели Llama-3.3-70B, сфокусированная на рассуждениях и агентских сценариях. Благодаря контекстному окну в 128K и глубокой постобработке, она отлично справляется с математикой, кодом и сложными RAG-системами.

Использовать через API

Метрики

Вход

13 ₽/M

Выход

50 ₽/M

Контекст

131k tokens

Параметры

16

Релиз

10 октября 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetool_choicetoolstop_ktop_p

Технический обзор

Llama-3.3-Nemotron-Super-49B-v1.5 — это англоязычная модель для рассуждений и чатов с 49 миллиардами параметров, созданная на базе Meta Llama-3.3-70B-Instruct с контекстным окном 128K. Модель прошла дополнительное обучение для работы в агентных сценариях, таких как RAG и вызов инструментов, через этап SFT на данных по математике, программированию, науке и многошаговым диалогам. Последующее обучение с подкреплением включало оптимизацию предпочтений с учетом вознаграждения (RPO) для выравнивания ответов, RL с проверяемыми вознаграждениями (RLVR) для пошаговых рассуждений и итеративную DPO для оттачивания навыков использования инструментов. Благодаря методу нейронного архитектурного поиска Puzzle на основе дистилляции, часть блоков внимания была заменена, а ширина слоев FFN изменена. Это позволило сократить объем занимаемой памяти и увеличить пропускную способность, обеспечивая возможность развертывания на одном графическом процессоре H100 или H200 при сохранении качества следования инструкциям и цепочек рассуждений. Во внутренних тестах модель показала высокие результаты в логике и кодинге: MATH500 pass@1 составил 97.4, AIME-2024 — 87.5, AIME-2025 — 82.71, GPQA — 71.97, LiveCodeBench — 73.58 и MMLU-Pro (CoT) — 79.53. Модель ориентирована на практическую эффективность инференса с высокой скоростью генерации токенов и сниженным потреблением VRAM. Поддерживаются режимы с включенным и выключенным блоком рассуждений. Решение оптимально подходит для создания агентов, ассистентов и систем поиска в длинных контекстах, где важен баланс точности, стоимости и надежности работы с инструментами. Доступно через API alltokens.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Для чего

NVIDIA Llama 3.3 Nemotron Super 49B — это оптимизированная версия модели Llama-3.3-70B, сфокусированная на рассуждениях и агентских сценариях. Благодаря контекстному окну в 128K и глубокой постобработке, она отлично справляется с математикой, кодом и сложными RAG-системами.

Контекст

131k

Цена ₽

13 / 50

Для чего

Обе модели ориентированы на сложные рассуждения и логические задачи, предлагая высокую производительность в компактном форм-факторе.

Контекст

131k

Цена ₽

10 / 50

Модель

Для чего

Являются продвинутыми производными от архитектуры Llama, оптимизированными для инструкций и сложных диалоговых сценариев.

Контекст

131k

Цена ₽

17 / 50

Для чего

Конкурируют в сегменте быстрых и эффективных моделей с поддержкой длинного контекста и вызова инструментов.

Контекст

203k

Цена ₽

8 / 50

Когда выбирать

  • Необходима высокая точность в задачах программирования и математических вычислениях
  • Требуется надежная работа с внешними инструментами и API через Tool Calling
  • Нужна обработка больших объемов данных в рамках контекста до 128K токенов

Когда не выбирать

  • Требуется работа на языках, отличных от английского, в качестве приоритетных
  • Необходима мультимодальность, так как модель работает только с текстовым вводом
  • Задачи требуют максимально возможного количества параметров, доступного в полных версиях 70B+ моделей

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru