Модель устарела
Из-за низкой популярности эта модель устарела и была удалена из API 14 апреля 2026 г..
nvidia/llama-3.1-nemotron-ultra-253b-v1Llama-3.1-Nemotron-Ultra-253B-v1 — это большая языковая модель, оптимизированная для сложного логического вывода, интерактивных чатов, генерации с дополнением данных из внешних источников (RAG) и задач вызова инструментов. Модель создана на базе Meta Llama-3.1-405B-Instruct и значительно доработана с использованием технологии поиска нейронной архитектуры (NAS). Это позволило повысить эффективность, снизить потребление памяти и сократить задержки при инференсе. Модель поддерживает контекстное окно до 128 000 токенов и может эффективно работать на узле с 8 графическими процессорами NVIDIA H100.
Для активации режима рассуждений в системном промпте необходимо использовать фразу detailed thinking on. Подробности доступны в рекомендациях по использованию на alltokens.
Параметры, которые поддерживает эта модель в API-запросах
Система автоматически выбирает оптимального провайдера и переключается на резервный при сбоях.
Сравните разных провайдеров на AllTokens
Оценки модели из Artificial Analysis
Эта модель больше недоступна в API, поэтому использовать ее через AllTokens не получится. Быстрый старт для устаревшей модели скрыт, чтобы не вводить в заблуждение.
NVIDIA: Llama 3.1 Nemotron Ultra 253B v1 от провайдера nvidia доступна через OpenAI-совместимый API AllTokens.
Страница агрегирует практические параметры для интеграции: стоимость входа и выхода, рабочий контекст, набор поддерживаемых параметров и сигналы для выбора модели под конкретные продакшн-сценарии.
Контекст
131 072 токенов
Цена входа
72 ₽ / 1M токенов
Цена выхода
216 ₽ / 1M токенов
Входные модальности
Выходные модальности
NVIDIA: Nemotron 3 Nano Omni (Бесплатно)
nvidia
NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель с 30 миллиардами параметров, разработанная для работы в качестве подсистемы восприятия и контекста в корпоративных агентных системах. Модель принимает текст, изображения, видео и другие виды данных.
NVIDIA: Nemotron 3 Super
nvidia
NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Многосредовое обучение с подкреплением (RL) на 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.
Добавлена в каталог
06.02.2026