Какие типы данных может обрабатывать Voxtral Small?

Модель является мультимодальной: она принимает на вход как текстовые запросы, так и аудиофайлы, выдавая результат в текстовом виде.

В чем главное преимущество этой модели перед обычным Mistral Small?

Ключевое отличие заключается в нативной поддержке аудио, что позволяет модели понимать речь и звуки без использования сторонних сервисов распознавания.

Поддерживает ли модель структурированный вывод данных?

Да, Voxtral Small поддерживает такие параметры, как structured_outputs и tool_choice, что позволяет получать ответы в строго заданном формате.

Mistral: Voxtral Small 24B 2507

MIMistralaiОбновлено: 30 октября 2025 г.

Voxtral Small 24B — это продвинутая мультимодальная модель, объединяющая текстовые возможности Mistral Small 3 с функциями обработки аудио. Она демонстрирует высокую точность в транскрибации, переводе и глубоком понимании аудиоконтента при сохранении отличных показателей в текстовых задачах.

Использовать через API

Метрики

Вход

13 ₽/M

Выход

38 ₽/M

Контекст

32k tokens

Параметры

Релиз

30 октября 2025 г.

Поддерживаемые параметры

frequency_penaltymax_tokenspresence_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_p

Технический обзор

Voxtral Small представляет собой усовершенствованную версию Mistral Small 3, которая объединяет передовые возможности обработки аудио с сохранением лучших в своем классе показателей работы с текстом. Модель демонстрирует выдающиеся результаты в транскрибации речи, переводе и понимании аудиоконтента. Стоимость обработки входящего аудио на alltokens составляет 100 долларов за миллион секунд.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Недорогие модели

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Mistral: Voxtral Small 24B 2507Текущая

Для чего

Контекст

32k

Цена ₽

13 / 38

Mistral: Voxtral Small 24B 2507Текущая

32k

13 / 38

Модель

mistralai/mistral-small-creative

Для чего

Обе модели базируются на архитектуре Mistral Small, но Voxtral добавляет поддержку аудиовхода.

Контекст

—

Цена ₽

— / —

mistralai/mistral-small-creative

Обе модели базируются на архитектуре Mistral Small, но Voxtral добавляет поддержку аудиовхода.

—

— / —

Модель

StepFun: Step 3.5 Flash

Для чего

Являются конкурентами в сегменте компактных и быстрых моделей с сопоставимой производительностью на текстовых задачах.

Контекст

262k

Цена ₽

13 / 38

StepFun: Step 3.5 Flash

262k

13 / 38

Когда выбирать

Необходима качественная транскрибация и перевод аудио в текст
Требуется анализ аудиоконтента с сохранением высокой точности текстовых ответов
Нужна эффективная модель среднего размера для интеграции в мультимодальные рабочие процессы через alltokens

Когда не выбирать

Требуется работа с очень длинными контекстами, превышающими 32 000 токенов
Необходима генерация аудиофайлов (модель работает только на вход аудио)
Задача требует использования сверхкрупных моделей для сложнейших логических вычислений