Какие типы данных поддерживает GPT-4o Audio?

Модель поддерживает комбинированный ввод текста и аудио, а также способна генерировать ответы в текстовом и звуковом форматах.

В чем преимущество прямой обработки аудио перед STT-системами?

Прямая обработка позволяет модели улавливать невербальные сигналы, такие как смех, сарказм или фоновые шумы, которые теряются при обычном преобразовании речи в текст.

Можно ли использовать модель через alltokens?

Да, модель доступна для интеграции через платформу alltokens с поддержкой всех стандартных параметров генерации.

OpenAI: GPT-4o Audio

OpenaiОбновлено: 15 августа 2025 г.

GPT-4o Audio — это передовая мультимодальная модель, способная напрямую обрабатывать аудиосигналы и генерировать голосовые ответы. Она распознает тончайшие нюансы человеческой речи, интонации и эмоции, обеспечивая естественное взаимодействие в реальном времени.

Использовать через API

Метрики

Вход

288 ₽/M

Выход

1 150 ₽/M

Контекст

128k tokens

Параметры

Релиз

15 августа 2025 г.

Поддерживаемые параметры

frequency_penaltylogit_biaslogprobsmax_tokenspresence_penaltyresponse_formatseedstopstructured_outputstemperaturetool_choicetoolstop_logprobstop_p

Технический обзор

Модель gpt-4o-audio-preview добавляет поддержку аудиовходов в качестве промптов. Это улучшение позволяет модели распознавать нюансы в аудиозаписях и делать взаимодействие с пользователем более глубоким. На данный момент генерация аудиовыхода не поддерживается. Стоимость аудиотокенов на alltokens составляет 40 долларов за миллион входных и 80 долларов за миллион выходных аудиотокенов.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

OpenAI модели

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

OpenAI: GPT-4o AudioТекущая

Для чего

Контекст

128k

Цена ₽

288 / 1 150

OpenAI: GPT-4o AudioТекущая

128k

288 / 1 150

Модель

OpenAI: GPT Audio

Для чего

Обладает идентичной модальностью ввода и вывода данных, являясь прямым аналогом в линейке OpenAI.

Контекст

128k

Цена ₽

288 / 1 150

OpenAI: GPT Audio

Обладает идентичной модальностью ввода и вывода данных, являясь прямым аналогом в линейке OpenAI.

128k

288 / 1 150

Модель

OpenAI: GPT Audio Mini

Для чего

Представляет собой облегченную версию с поддержкой аудио для менее ресурсоемких задач.

Контекст

128k

Цена ₽

72 / 288

OpenAI: GPT Audio Mini

Представляет собой облегченную версию с поддержкой аудио для менее ресурсоемких задач.

128k

72 / 288

Когда выбирать

Необходим анализ эмоциональной окраски и интонаций в аудиозаписях
Требуется создание интерактивных голосовых помощников с минимальной задержкой
Нужна высокая точность обработки сложных аудио-запросов в рамках большого контекстного окна

Когда не выбирать

Работа ограничивается исключительно текстовыми данными без аудио-составляющей
Требуется специализированная модель для глубокого написания программного кода
Задачи подразумевают только визуальный анализ изображений без звукового сопровождения