Какие типы данных поддерживает Qwen3-VL-30B-A3B-Instruct?

Модель является мультимодальной: она принимает на вход как текстовые запросы, так и изображения или видео, выдавая текстовый результат.

Каков объем контекстного окна данной модели?

Модель поддерживает до 131 072 токенов, что позволяет обрабатывать очень длинные документы и детализированные визуальные данные.

Поддерживает ли модель структурированный вывод?

Да, через API alltokens доступны такие параметры, как structured_outputs и response_format, что удобно для интеграции в программные системы.

Qwen: Qwen3 VL 30B A3B Instruct

QwenОбновлено: 06 октября 2025 г.

Qwen3-VL-30B-A3B-Instruct — это продвинутая мультимодальная модель, объединяющая глубокое понимание визуального контента с мощной текстовой генерацией. Она оптимизирована для выполнения сложных инструкций, анализа изображений и видео, обеспечивая высокую точность восприятия в рамках длинного контекстного окна.

Использовать через API

Метрики

Вход

17 ₽/M

Выход

65 ₽/M

Контекст

262k tokens

Параметры

Релиз

06 октября 2025 г.

Поддерживаемые параметры

frequency_penaltylogit_biaslogprobsmax_tokensmin_ppresence_penaltyrepetition_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_ktop_logprobstop_p

Технический обзор

Qwen3-VL-30B-A3B-Instruct — это мультимодальная модель, объединяющая мощную генерацию текста с глубоким пониманием изображений и видео. Версия Instruct оптимизирована для точного следования инструкциям в широком спектре мультимодальных задач. Модель демонстрирует выдающиеся результаты в распознавании объектов реального и синтетического миров, пространственном ориентировании в 2D и 3D, а также в анализе длинных видеопоследовательностей, показывая конкурентные показатели в отраслевых бенчмарках. В качестве интеллектуального агента она способна обрабатывать многоходовые диалоги с несколькими изображениями, сопоставлять события на временной шкале видео, автоматизировать работу с графическим интерфейсом и заниматься визуальным программированием — от создания набросков до отладки готового интерфейса. Текстовая производительность модели соответствует флагманским решениям линейки Qwen3, что делает её подходящей для анализа документов, OCR, помощи в работе с UI, решения пространственных задач и исследований в области автономных агентов.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Недорогие модели Модели с длинным контекстом

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Qwen: Qwen3 VL 30B A3B InstructТекущая

Для чего

Контекст

262k

Цена ₽

17 / 65

Qwen: Qwen3 VL 30B A3B InstructТекущая

262k

17 / 65

Модель

baidu/ernie-4.5-vl-28b-a3b

Для чего

Обе модели имеют схожую архитектуру и сопоставимый объем параметров, специализируясь на мультимодальном анализе данных.

Контекст

—

Цена ₽

— / —

baidu/ernie-4.5-vl-28b-a3b

—

— / —

Модель

Qwen: Qwen3 VL 8B Instruct

Для чего

Младшая версия в той же линейке, предлагающая аналогичные возможности распознавания, но с меньшей вычислительной мощностью.

Контекст

256k

Цена ₽

15 / 57

Qwen: Qwen3 VL 8B Instruct

256k

15 / 57

Модель

Mistral: Mistral Small 4

Для чего

Конкурирующая модель среднего размера, также поддерживающая работу с текстом и изображениями для широкого спектра задач.

Контекст

262k

Цена ₽

19 / 75

Mistral: Mistral Small 4

262k

19 / 75

Когда выбирать

Необходим детальный анализ видеофайлов или сложных изображений с последующим текстовым описанием.
Требуется работа с большими объемами данных благодаря контекстному окну в 128k токенов.
Нужна высокая точность следования сложным инструкциям в мультимодальных сценариях через alltokens.

Когда не выбирать

Требуется максимально легкая и быстрая модель для простых текстовых чат-ботов без визуального ввода.
Задачи ограничены исключительно генерацией программного кода без необходимости визуального контекста.
Необходима работа в офлайн-режиме на устройствах с крайне ограниченными ресурсами памяти.