Каков максимальный объем контекста у Virtuoso Large?

Модель поддерживает работу с контекстом до 131 072 токенов, что позволяет анализировать целые книги или объемную техническую документацию за один запрос.

Для каких бизнес-задач лучше всего подходит эта модель?

Virtuoso Large оптимизирована для кросс-доменных рассуждений, корпоративных систем QA и создания качественного контента, где важна точность и связность изложения.

Можно ли использовать Virtuoso Large через alltokens?

Да, модель доступна через API alltokens, поддерживая широкий набор параметров управления генерацией, включая инструменты (tools) и настройки штрафов за повторы.

Arcee AI: Virtuoso Large

ARArcee-aiОбновлено: 05 мая 2025 г.

Virtuoso Large — это флагманская модель от Arcee AI на 72 миллиарда параметров, оптимизированная для сложных рассуждений и корпоративных задач. Она выделяется способностью эффективно работать с длинными контекстами до 128 тысяч токенов, сохраняя высокую точность в творческом письме и аналитике.

Использовать через API

Метрики

Вход

94 ₽/M

Выход

150 ₽/M

Контекст

131k tokens

Параметры

Релиз

05 мая 2025 г.

Поддерживаемые параметры

frequency_penaltylogit_biasmax_tokensmin_ppresence_penaltyrepetition_penaltystoptemperaturetool_choicetoolstop_ktop_p

Технический обзор

Virtuoso-Large — это флагманская универсальная языковая модель от Arcee с 72 миллиардами параметров, оптимизированная для решения задач междисциплинарного логического вывода, креативного письма и корпоративных ответов на вопросы. В отличие от многих аналогов в категории 70B, она сохраняет контекстное окно в 128 000 токенов, унаследованное от архитектуры Qwen 2.5, что позволяет ей целиком обрабатывать книги, кодовые базы или финансовую отчетность. Процесс обучения включал дистилляцию знаний из DeepSeek R1, многоэтапную контролируемую тонкую настройку и финальную стадию выравнивания через DPO/RLHF, что обеспечило высокие результаты в тестах BIG-Bench-Hard, GSM-8K и испытаниях на поиск информации в длинном контексте. Компании используют Virtuoso-Large на платформе alltokens в качестве основного вычислительного узла в конвейерах Conductor, когда малые языковые модели показывают низкую уверенность в ответе. Несмотря на внушительный размер, агрессивная оптимизация KV-кэша позволяет сохранять задержку до генерации первого токена в пределах нескольких секунд на узлах с 8 картами H100, что делает модель практичным и мощным инструментом для промышленной эксплуатации.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Arcee AI: Virtuoso LargeТекущая

Для чего

Контекст

131k

Цена ₽

94 / 150

Arcee AI: Virtuoso LargeТекущая

131k

94 / 150

Модель

Z.ai: GLM 4.7

Для чего

Обе модели относятся к классу высокопроизводительных решений для широкого спектра задач и обладают сопоставимыми возможностями в обработке естественного языка.

Контекст

203k

Цена ₽

48 / 210

Z.ai: GLM 4.7

203k

48 / 210

Модель

Relace: Relace Apply 3

Для чего

Модели находятся в одной категории по объему параметров и ориентированы на качественное выполнение сложных инструкций в корпоративном сегменте.

Контекст

256k

Цена ₽

102 / 150

Relace: Relace Apply 3

256k

102 / 150

Когда выбирать

Необходима обработка объемных документов и длинных цепочек переписки благодаря контекстному окну 128k.
Требуется высокое качество генерации текстов для маркетинга или творческих проектов.
Нужна надежная модель для корпоративных систем ответов на вопросы (Enterprise QA) с глубоким пониманием контекста.

Когда не выбирать

Требуется мгновенная реакция в простых чат-ботах, где важнее скорость, чем глубина рассуждений.
Задачи ограничиваются короткими запросами, не требующими анализа больших массивов данных.
Необходима работа с мультимодальным контентом, так как модель специализируется только на тексте.