Alltokens

Baidu: ERNIE 4.5 VL 424B A47B

BABaiduОбновлено: 30 июня 2025 г.

ERNIE 4.5 VL — это мощная мультимодальная модель от Baidu, построенная на архитектуре Mixture-of-Experts (MoE) с 424 миллиардами параметров. Она специально оптимизирована для совместной обработки текста и изображений, обеспечивая высокую точность в сложных визуально-текстовых задачах.

Использовать через API

Метрики

Вход

53 ₽/M

Выход

156 ₽/M

Контекст

131k tokens

Параметры

11

Релиз

30 июня 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoningmax_tokenspresence_penaltyreasoningrepetition_penaltyseedstoptemperaturetop_ktop_p

Технический обзор

ERNIE-4.5-VL-424B-A47B — это мультимодальная модель на архитектуре Mixture-of-Experts (MoE) из серии Baidu ERNIE 4.5. Общее количество параметров составляет 424 миллиарда, из которых 47 миллиардов активируются для каждого токена. Модель прошла совместное обучение на текстовых и визуальных данных с использованием гетерогенной архитектуры MoE и изолированной маршрутизации по модальностям. Это обеспечивает высокую точность кросс-модальных рассуждений, понимание изображений и генерацию длинных контекстов до 131 000 токенов. Благодаря тонкой настройке методами SFT, DPO, UPO и RLVR, модель поддерживает режимы инференса с этапом предварительных рассуждений и без него. Решение предназначено для визуально-языковых задач на английском и китайском языках, оптимизировано для эффективного масштабирования и поддерживает работу в режимах 4-битного и 8-битного квантования. Доступ к модели осуществляется через API alltokens.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Модель

Для чего

ERNIE 4.5 VL — это мощная мультимодальная модель от Baidu, построенная на архитектуре Mixture-of-Experts (MoE) с 424 миллиардами параметров. Она специально оптимизирована для совместной обработки текста и изображений, обеспечивая высокую точность в сложных визуально-текстовых задачах.

Контекст

131k

Цена ₽

53 / 156

Для чего

Обе модели являются современными мультимодальными решениями от ведущих китайских разработчиков, ориентированными на глубокое понимание визуального контента.

Контекст

131k

Цена ₽

17 / 194

Для чего

Модели сопоставимы по объему контекстного окна и позиционируются как флагманские решения для обработки сложных запросов с поддержкой мультимодальности.

Контекст

262k

Цена ₽

60 / 180

Когда выбирать

  • Необходим глубокий анализ изображений в сочетании с текстовыми данными
  • Требуется работа с длинными контекстами до 123 тысяч токенов
  • Нужна высокая производительность архитектуры MoE для сложных логических задач

Когда не выбирать

  • Требуется исключительно текстовая генерация без использования визуальных данных
  • Необходима работа в режиме реального времени на устройствах с ограниченными ресурсами
  • Задачи ограничиваются простыми короткими запросами, не требующими мощностей 424B модели

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru