Что означает архитектура MoE в ERNIE 4.5 VL?

Это архитектура Mixture-of-Experts, где из 424 миллиардов общих параметров для каждого конкретного токена активируются только 47 миллиардов, что повышает эффективность работы.

Какие типы данных может обрабатывать эта модель через alltokens?

Модель поддерживает мультимодальный ввод, позволяя одновременно подавать текстовые запросы и изображения для получения текстового ответа.

Каков максимальный объем контекста у ERNIE 4.5 VL?

Модель поддерживает работу с контекстом до 123 000 токенов, что позволяет анализировать объемные документы и детализированные изображения.

Baidu: ERNIE 4.5 VL 424B A47B

BABaiduОбновлено: 30 июня 2025 г.

ERNIE 4.5 VL — это мощная мультимодальная модель от Baidu, построенная на архитектуре Mixture-of-Experts (MoE) с 424 миллиардами параметров. Она специально оптимизирована для совместной обработки текста и изображений, обеспечивая высокую точность в сложных визуально-текстовых задачах.

Использовать через API

Метрики

Вход

53 ₽/M

Выход

156 ₽/M

Контекст

131k tokens

Параметры

Релиз

30 июня 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoningmax_tokenspresence_penaltyreasoningrepetition_penaltyseedstoptemperaturetop_ktop_p

Технический обзор

ERNIE-4.5-VL-424B-A47B — это мультимодальная модель на архитектуре Mixture-of-Experts (MoE) из серии Baidu ERNIE 4.5. Общее количество параметров составляет 424 миллиарда, из которых 47 миллиардов активируются для каждого токена. Модель прошла совместное обучение на текстовых и визуальных данных с использованием гетерогенной архитектуры MoE и изолированной маршрутизации по модальностям. Это обеспечивает высокую точность кросс-модальных рассуждений, понимание изображений и генерацию длинных контекстов до 131 000 токенов. Благодаря тонкой настройке методами SFT, DPO, UPO и RLVR, модель поддерживает режимы инференса с этапом предварительных рассуждений и без него. Решение предназначено для визуально-языковых задач на английском и китайском языках, оптимизировано для эффективного масштабирования и поддерживает работу в режимах 4-битного и 8-битного квантования. Доступ к модели осуществляется через API alltokens.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Baidu: ERNIE 4.5 VL 424B A47B Текущая

Для чего

Контекст

131k

Цена ₽

53 / 156

Baidu: ERNIE 4.5 VL 424B A47B Текущая

131k

53 / 156

Модель

Qwen: Qwen3 VL 30B A3B Thinking

Для чего

Обе модели являются современными мультимодальными решениями от ведущих китайских разработчиков, ориентированными на глубокое понимание визуального контента.

Контекст

131k

Цена ₽

17 / 125

Qwen: Qwen3 VL 30B A3B Thinking

131k

17 / 125

Модель

Mistral: Mistral Large 3 2512

Для чего

Модели сопоставимы по объему контекстного окна и позиционируются как флагманские решения для обработки сложных запросов с поддержкой мультимодальности.

Контекст

262k

Цена ₽

60 / 180

Mistral: Mistral Large 3 2512

262k

60 / 180

Когда выбирать

Необходим глубокий анализ изображений в сочетании с текстовыми данными
Требуется работа с длинными контекстами до 123 тысяч токенов
Нужна высокая производительность архитектуры MoE для сложных логических задач

Когда не выбирать

Требуется исключительно текстовая генерация без использования визуальных данных
Необходима работа в режиме реального времени на устройствах с ограниченными ресурсами
Задачи ограничиваются простыми короткими запросами, не требующими мощностей 424B модели