Каков максимальный объем контекста у Step 3.5 Flash?

Модель поддерживает работу с контекстным окном до 256 000 токенов, что позволяет анализировать целые книги или большие массивы программного кода за один запрос.

В чем особенность архитектуры MoE в этой модели?

Архитектура Mixture of Experts позволяет модели иметь 196 миллиардов параметров, но активировать только 11 миллиардов для каждого токена, что значительно ускоряет работу без потери качества.

Можно ли использовать Step 3.5 Flash через alltokens?

Да, данная модель доступна на платформе alltokens, что позволяет интегрировать её возможности в ваши проекты через единый API.

StepFun: Step 3.5 Flash (Бесплатно)

STStepfunОбновлено: 29 января 2026 г.

Step 3.5 Flash — это высокопроизводительная модель на базе архитектуры Mixture of Experts (MoE), которая сочетает огромный объем знаний с высокой скоростью работы. Благодаря активации лишь малой части параметров для каждого токена, она обеспечивает мгновенные ответы при сохранении глубокого понимания контекста до 256 тысяч токенов.

Использовать через API

Метрики

Вход

— ₽/M

Выход

— ₽/M

Контекст

256k tokens

Параметры

Релиз

29 января 2026 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoningmax_tokensreasoningstoptemperaturetoolstop_p

Технический обзор

Step 3.5 Flash — это самая мощная базовая модель с открытым исходным кодом от компании StepFun. Построенная на архитектуре разреженной смеси экспертов (MoE), она выборочно активирует только 11 миллиардов из 196 миллиардов параметров для каждого токена. Это модель с возможностями рассуждения, которая демонстрирует невероятную скорость работы даже при обработке длинных контекстов. На платформе alltokens вы можете получить доступ к ее возможностям для решения сложных задач.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования Недорогие модели Модели с длинным контекстом

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

StepFun: Step 3.5 Flash (Бесплатно)Текущая

Для чего

Контекст

256k

Цена ₽

— / —

StepFun: Step 3.5 Flash (Бесплатно)Текущая

256k

— / —

Модель

Qwen: Qwen3.6 Plus Preview (Бесплатно)

Для чего

Обе модели являются передовыми разработками китайских лабораторий, ориентированными на высокую скорость генерации и поддержку длинных контекстных окон.

Контекст

Цена ₽

— / —

Qwen: Qwen3.6 Plus Preview (Бесплатно)

— / —

Модель

NVIDIA: Nemotron 3 Super (Бесплатно)

Для чего

Обе нейросети используют архитектуру MoE для оптимизации вычислений и показывают сопоставимую эффективность в задачах общего назначения.

Контекст

Цена ₽

— / —

NVIDIA: Nemotron 3 Super (Бесплатно)

— / —

Когда выбирать

Необходима обработка и анализ сверхдлинных документов или логов объемом до 256k токенов
Требуется минимальная задержка (latency) при генерации ответов в реальном времени
Нужна эффективная модель с архитектурой MoE для решения сложных логических задач

Когда не выбирать

Требуется работа исключительно с мультимодальными данными, такими как генерация изображений
Необходима модель с максимальным количеством активных параметров для узкоспециализированных научных исследований
Задачи требуют специфических настроек, не поддерживаемых текущим набором параметров модели