Alltokens

LLM-модели с длинным контекстным окном

Для работы с крупными документами, длинными диалогами и многофайловыми кодовыми базами выбирайте модели из этой подборки.

Моделей в подборке

60

Средняя цена (вход)

346 ₽/M

Макс. контекст

10.0M

Модели

meta-llama

Meta: Llama 4 Scout

Llama 4 Scout 17B Instruct (16E) — это языковая модель на базе архитектуры смеси экспертов (MoE), разработанная Meta. Модель активирует 17 миллиардов параметров из общего числа в 109 миллиардов. Она поддерживает нативный мультимодальный ввод (текст и изображения) и мультиязычный вывод (текст и программный код) на 12 языках. Scout спроектирована для работы в режиме ассистента и визуального анализа, используя 16 экспертов на каждом проходе. Модель обладает контекстным окном в 10 миллионов токенов и обучена на корпусе объемом около 40 триллионов токенов. Созданная для высокой эффективности и локального или коммерческого развертывания, Llama 4 Scout использует технологию раннего слияния для бесшовной интеграции различных модальностей. Модель прошла процедуру настройки инструкций для использования в мультиязычных чатах, генерации описаний к изображениям и задач по распознаванию визуального контента. Выпущенная под лицензией Llama 4 Community License, она обучалась на данных вплоть до августа 2024 года и стала доступна на alltokens 5 апреля 2025 года.

от Контекст 10.00M10 ₽/Mвх38 ₽/Mвых
alltokens

Pareto Code Router

Pareto Router — это способ, с помощью которого alltokens всегда выбирает для вас мощную модель для кодирования в соответствии с вашими потребностями, не привязываясь к конкретной модели. Вы выражаете единственное предпочтение `min_coding_score`...

от Контекст 2.00MБесплатновхБесплатновых
x-ai

xAI: Grok 4.20 Multi-Agent

Рассуждения

Grok 4.20 Multi-Agent — это вариант модели xAI Grok 4.20, созданный для совместной работы агентов. Несколько агентов работают параллельно для проведения глубоких исследований, координации использования инструментов и синтеза информации при решении сложных задач. Поведение при затратах на рассуждение: - низкое / среднее: 4 агента - высокое / очень высокое: 16 агентов

от Контекст 2.00M240 ₽/Mвх718 ₽/Mвых
x-ai

xAI: Grok 4.20

Рассуждения

Grok 4.20 — новейшая флагманская модель xAI с лидирующей скоростью и возможностями агентного вызова инструментов. Она сочетает самый низкий на рынке уровень галлюцинаций с строгим соблюдением инструкций, обеспечивая стабильно точные и правдивые ответы. Режим рассуждений можно включать/выключать с помощью параметра `reasoning` `enabled` в API. Подробнее в наших документах.

от Контекст 2.00M150 ₽/Mвх299 ₽/Mвых
alltokens

Auto Router

Рассуждения

Ваш запрос будет обработан мета-моделью и направлен в одну из десятков доступных моделей для достижения наилучшего результата. Чтобы узнать, какая именно модель была использована, проверьте историю активности или атрибут model в ответе API. Стоимость запроса соответствует тарифу выбранной модели. Вы можете настроить список моделей для маршрутизации в документации. Запросы направляются в следующие модели: - anthropic/claude-haiku-4.5 - anthropic/claude-opus-4.6 - anthropic/claude-sonnet-4.5 - deepseek/deepseek-r1 - google/gemini-2.5-flash-lite - google/gemini-3-flash-preview - google/gemini-3-pro-preview - meta-llama/llama-3.3-70b-instruct - mistralai/codestral-2508 - mistralai/mistral-large - mistralai/mistral-medium-3.1 - mistralai/mistral-small-3.2-24b-instruct-2506 - moonshotai/kimi-k2-thinking - moonshotai/kimi-k2.5 - openai/gpt-5 - openai/gpt-5-mini - openai/gpt-5-nano - openai/gpt-5.1 - openai/gpt-5.2 - openai/gpt-5.2-pro - openai/gpt-oss-120b - perplexity/sonar - qwen/qwen3-235b-a22b - x-ai/grok-3 - x-ai/grok-3-mini - x-ai/grok-4

от Контекст 2.00MБесплатновхБесплатновых
~openai

OpenAI GPT Latest

Рассуждения

Эта модель всегда перенаправляет на последнюю модель из семейства GPT компании OpenAI.

от Контекст 1.05M575 ₽/Mвх3 450 ₽/Mвых
openai

OpenAI: GPT-5.5 Pro

Рассуждения

GPT-5.5 Pro — это высокопроизводительная модель, разработанная для глубокого анализа и высокой точности при работе с комплексными и критически важными задачами. Модель поддерживает контекстное окно более 1 миллиона токенов (922 тысячи входных, 128 тысяч выходных).

от Контекст 1.05M3 312 ₽/Mвх19 872 ₽/Mвых
openai

OpenAI: GPT-5.5

Рассуждения

GPT-5.5 — передовая модель, разработанная для сложных профессиональных задач, основанная на GPT-5.4 с улучшенными возможностями рассуждения, повышенной надежностью и улучшенной эффективностью обработки токенов при выполнении сложных заданий. Модель поддерживает работу с более чем 1 миллионом токенов.

от Контекст 1.05M575 ₽/Mвх3 450 ₽/Mвых
openai

OpenAI: GPT-5.4 Pro

Рассуждения

GPT-5.4 Pro — самая продвинутая модель OpenAI, построенная на унифицированной архитектуре GPT-5.4 с улучшенными способностями к рассуждению для сложных, критически важных задач. Она оснащена контекстным окном в 1M+ токенов (922K входных, 128K выходных) с поддержкой текстовых и изображений входных данных. Оптимизирована для пошагового рассуждения, следования инструкциям и точности, GPT-5.4 Pro отлично справляется с агентным кодированием, рабочими процессами с длинным контекстом и решением многошаговых задач.

от Контекст 1.05M3 312 ₽/Mвх19 872 ₽/Mвых
openai

OpenAI: GPT-5.4

Рассуждения

GPT-5.4 — это последняя флагманская модель OpenAI, объединяющая линии Codex и GPT в единую систему. Она оснащена контекстным окном более 1 млн токенов (922 тыс. входных, 128 тыс. выходных) и поддерживает текстовые и изображенные входные данные, что позволяет выполнять высококонтекстное рассуждение, программирование и мультимодальный анализ в рамках одного рабочего процесса. Модель демонстрирует улучшенные результаты в программировании, анализе документов, использовании инструментов и следовании инструкциям. Она разработана как надежный выбор как для общих задач, так и для разработки программного обеспечения, способна генерировать код промышленного качества, синтезировать информацию из множественных источников и выполнять сложные многошаговые рабочие процессы с меньшим количеством итераций и большей эффективностью использования токенов.

от Контекст 1.05M288 ₽/Mвх1 725 ₽/Mвых
alltokens

Owl Alpha

Owl Alpha — это высокопроизводительная базовая модель, разработанная для агентных задач. Она изначально поддерживает использование инструментов и работу с длинным контекстом, демонстрируя высокую эффективность в генерации кода, автоматизации рабочих процессов и выполнении сложных инструкций.

от Контекст 1.05MБесплатновхБесплатновых
google

Google: Gemini 3.1 Pro Preview Custom Tools

Рассуждения

Gemini 3.1 Pro Preview Custom Tools — это специализированная версия модели Gemini 3.1 Pro, в которой оптимизирован механизм выбора инструментов. Модель реже использует стандартный bash-инструмент в тех случаях, когда доступны более эффективные сторонние или пользовательские функции. Этот предварительный эндпоинт на alltokens значительно повышает надежность вызова функций и гарантирует, что модель выберет наиболее подходящий инструмент в сценариях с кодинг-агентами и сложными рабочими процессами, включающими множество инструментов. Модель сохраняет все ключевые преимущества Gemini 3.1 Pro, включая мультимодальное рассуждение при работе с текстом, изображениями, видео, аудио и кодом, контекстное окно объемом 1 миллион токенов и высокую производительность в задачах разработки программного обеспечения.

от Контекст 1.05M230 ₽/Mвх1 380 ₽/Mвых
google

Google: Gemini 3.1 Flash Lite

Рассуждения
#19 в рейтинге

Gemini 3.1 Flash Lite — это высокоэффективная мультимодальная модель Google с общедоступным выпуском, оптимизированная для задач с низкой задержкой и высокой нагрузкой. Модель поддерживает ввод текста, изображений, видео, аудио и PDF, и предназначена для использования в легких агентских приложениях.

от Контекст 1.05M32 ₽/Mвх187 ₽/Mвых
~google

Google Gemini Pro Latest

Рассуждения

Эта модель всегда перенаправляет на последнюю модель из семейства Google Gemini Pro.

от Контекст 1.05M230 ₽/Mвх1 380 ₽/Mвых
~google

Google Gemini Flash Latest

Рассуждения

Эта модель всегда перенаправляет на последнюю модель из семейства Google Gemini Flash.

от Контекст 1.05M60 ₽/Mвх359 ₽/Mвых
deepseek

DeepSeek: DeepSeek V4 Pro

Рассуждения

DeepSeek V4 Pro is a large-scale Mixture-of-Experts model from DeepSeek with 1.6T total parameters and 49B activated parameters, supporting a 1M-token context window. It is designed for advanced reasoning, coding,...

от Контекст 1.05M55 ₽/Mвх109 ₽/Mвых
deepseek

DeepSeek: DeepSeek V4 Flash (Бесплатно)

Рассуждения

DeepSeek V4 Flash — это оптимизированная по эффективности модель Mixture-of-Experts от DeepSeek с общим числом параметров 284 миллиарда и 13 миллиардами активируемых параметров, поддерживающая контекстное окно в 1 миллион токенов. Модель разработана для быстрого вывода и...

от Контекст 1.05MБесплатновхБесплатновых
deepseek

DeepSeek: DeepSeek V4 Flash

Рассуждения
#4 в рейтинге

DeepSeek V4 Flash is an efficiency-optimized Mixture-of-Experts model from DeepSeek with 284B total parameters and 13B activated parameters, supporting a 1M-token context window. It is designed for fast inference and...

от Контекст 1.05M14 ₽/Mвх28 ₽/Mвых
xiaomi

Xiaomi: MiMo-V2.5-Pro

Рассуждения
#16 в рейтинге

MiMo-V2.5-Pro — флагманская модель Xiaomi, демонстрирующая высокую производительность в общих агентных задачах, сложном программном инжиниринге и долгосрочных проектах, занимая лидирующие позиции в бенчмарках, таких как ClawEval, GDPVal и SWE-bench Pro.

от Контекст 1.05M120 ₽/Mвх359 ₽/Mвых
xiaomi

Xiaomi: MiMo-V2.5

Рассуждения

MiMo-V2.5 — это нативная омнимодальная модель от Xiaomi. Она обеспечивает производительность уровня Pro для агентных задач примерно за половину стоимости вывода, при этом превосходя MiMo-V2-Omni в мультимодальном восприятии при анализе изображений и видео.

от Контекст 1.05M48 ₽/Mвх240 ₽/Mвых
google

Google: Lyria 3 Pro Preview

Lyria 3 — это семейство моделей генерации музыки от Google, доступное через API Gemini. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых подсказок или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Pro способна генерировать полноформатные песни с припевами, куплетами и переходными частями.

от Контекст 1.05MПолноформатные песни: 9,94 ₽/M за композицию
google

Google: Lyria 3 Clip Preview

Lyria 3 — это семейство моделей генерации музыки от Google, доступное через Gemini API. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых описаний или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Clip позволяет генерировать короткие клипы, петли и превью.

от Контекст 1.05MАудио-сниппет 30 сек: 4,97 ₽/M за клип
xiaomi

Xiaomi: MiMo-V2-Pro

Рассуждения

MiMo-V2-Pro — флагманская базовая модель Xiaomi, оснащенная более чем 1 трлн параметров и контекстом длиной 1 млн токенов, глубоко оптимизированная для агентных сценариев. Модель высокоадаптивна к общим агентным фреймворкам, таким как OpenClaw. Она занимает место среди мировых лидеров в стандартных бенчмарках PinchBench и ClawBench, при этом воспринимаемое качество работы приближается к уровню Opus 4.6. MiMo-V2-Pro разработана для использования в качестве «мозга» агентных систем, позволяя управлять сложными рабочими процессами, выполнять задачи инженерного производства и обеспечивать надежную доставку результатов.

от Контекст 1.05M120 ₽/Mвх359 ₽/Mвых
google

Google: Gemini 3.1 Flash Lite Preview

Рассуждения

Gemini 3.1 Flash Lite Preview — это высокоэффективная модель Google, оптимизированная для задач с высоким объемом использования. Она превосходит Gemini 2.5 Flash Lite по общему качеству и приближается к производительности Gemini 2.5 Flash по ключевым возможностям. Улучшения охватывают аудиовход/ASR, ранжирование фрагментов RAG, перевод, извлечение данных и завершение кода. Поддерживает полные уровни мышления (минимальный, низкий, средний, высокий) для точной настройки компромисса между стоимостью и производительностью. Стоит в два раза дешевле Gemini 3 Flash.

от Контекст 1.05M32 ₽/Mвх187 ₽/Mвых
google

Google: Gemini 3.1 Pro Preview

Рассуждения

Gemini 3.1 Pro Preview — это передовая модель Google с расширенными возможностями рассуждения, обеспечивающая повышенную производительность в разработке программного обеспечения, надежность работы агентов и эффективное использование токенов в сложных рабочих процессах. Основанная на мультимодальной базе серии Gemini 3, она сочетает в себе высокоточное логическое мышление при работе с текстом, изображениями, видео, аудио и кодом с контекстным окном в 1 миллион токенов. При использовании многошагового вызова инструментов на alltokens необходимо сохранять детали рассуждений. Обновление 3.1 демонстрирует измеримый рост в тестах SWE и реальных средах программирования, а также более уверенное выполнение автономных задач в структурированных областях, таких как финансы и работа с электронными таблицами. Разработанная для продвинутой разработки и агентных систем, Gemini 3.1 Pro Preview улучшает стабильность при выполнении длительных задач и оркестрацию инструментов, одновременно повышая эффективность расхода токенов. В модели представлен новый средний уровень мышления для оптимального баланса стоимости, скорости и производительности. Модель отлично справляется с написанием кода через агентов, структурированным планированием, мультимодальным анализом и автоматизацией рабочих процессов, что делает ее подходящей для автономных агентов, финансового моделирования, автоматизации таблиц и корпоративных задач с большим объемом контекста.

от Контекст 1.05M230 ₽/Mвх1 380 ₽/Mвых
google

Google: Gemini 3 Flash Preview

Рассуждения

Gemini 3 Flash Preview — это высокоскоростная и эффективная модель с поддержкой логических рассуждений, разработанная для агентных рабочих процессов, многошаговых диалогов и помощи в написании кода. Она обеспечивает производительность в рассуждениях и использовании инструментов на уровне, близком к версии Pro, но с существенно меньшей задержкой, чем у более крупных вариантов Gemini. Это делает ее оптимальным выбором для интерактивной разработки, длительных циклов работы агентов и совместного программирования. По сравнению с Gemini 2.5 Flash, данная модель предлагает значительные улучшения в качестве логических выводов, мультимодальном понимании и надежности. Модель поддерживает контекстное окно объемом 1 миллион токенов и мультимодальные входные данные, включая текст, изображения, аудио, видео и PDF-файлы, с выводом в текстовом формате. Функционал включает настраиваемые уровни рассуждений (минимальный, низкий, средний, высокий), структурированный вывод, использование инструментов и автоматическое кэширование контекста. Gemini 3 Flash Preview оптимизирована для пользователей, которым требуются развитые способности к рассуждению и агентное поведение без затрат и задержек, характерных для полномасштабных флагманских моделей.

от Контекст 1.05M60 ₽/Mвх359 ₽/Mвых
google

Google: Gemini 2.5 Flash Lite Preview 09-2025

Рассуждения

Gemini 2.5 Flash-Lite — это облегченная модель рассуждений в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и максимальной экономической эффективности. Она обеспечивает повышенную пропускную способность, более генерацию токенов и улучшенную производительность в стандартных тестах по сравнению с предыдущими моделями Flash. По умолчанию функция мышления (многопроходное рассуждение) отключена для обеспечения максимальной скорости, однако разработчики могут активировать ее через параметр Reasoning API, чтобы выборочно повышать уровень интеллекта модели за счет увеличения стоимости. На alltokens вы можете получить доступ к этой модели для интеграции в свои проекты.

от Контекст 1.05M13 ₽/Mвх50 ₽/Mвых
qwen

Qwen: Qwen3 Coder 480B A35B

Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на базе архитектуры Mixture-of-Experts (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждение в рамках длинного контекста при работе с репозиториями. Модель содержит в общей сложности 480 миллиардов параметров, из которых 35 миллиардов активны при каждом проходе (используются 8 из 160 экспертов). Стоимость использования через API alltokens зависит от длины контекста. Если объем входного запроса превышает 128 000 токенов, применяется повышенный тариф.

от Контекст 1.05M27 ₽/Mвх216 ₽/Mвых
qwen

Qwen: Qwen3 Coder 480B A35B (Бесплатно)

Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на базе архитектуры Mixture-of-Experts (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждение в рамках длинного контекста при работе с репозиториями. Модель содержит в общей сложности 480 миллиардов параметров, из которых 35 миллиардов активны при каждом проходе (используются 8 из 160 экспертов). Стоимость использования через API alltokens зависит от длины контекста. Если объем входного запроса превышает 128 000 токенов, применяется повышенный тариф.

от Контекст 1.05MБесплатновхБесплатновых
google

Google: Gemini 2.5 Flash Lite

Рассуждения

Gemini 2.5 Flash-Lite — это облегченная модель в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и максимальной экономической эффективности. Она обеспечивает повышенную пропускную способность, ускоренную генерацию токенов и лучшие показатели в стандартных тестах по сравнению с предыдущими моделями Flash. По умолчанию функция рассуждений отключена для обеспечения максимальной скорости работы, однако разработчики могут активировать ее через параметр Reasoning API, чтобы выборочно повысить интеллектуальные возможности модели за счет увеличения стоимости. На платформе alltokens вы можете интегрировать данную модель в свои проекты.

от Контекст 1.05M13 ₽/Mвх50 ₽/Mвых
google

Google: Gemini 2.5 Flash

Рассуждения

Gemini 2.5 Flash — это передовая высокопроизводительная модель от Google, специально разработанная для сложного логического вывода, написания кода, решения математических и научных задач. Она оснащена встроенными механизмами рассуждения, что позволяет ей выдавать ответы с повышенной точностью и глубокой проработкой контекста. Кроме того, Gemini 2.5 Flash поддерживает настройку через параметр max tokens for reasoning, доступный в API alltokens.

от Контекст 1.05M36 ₽/Mвх299 ₽/Mвых
google

Google: Gemini 2.5 Pro

Рассуждения

Gemini 2.5 Pro — это современная модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического рассуждения, программирования, математики и естественных наук. Модель использует возможности глубокого мышления, что позволяет ей выстраивать цепочки рассуждений для достижения повышенной точности и тонкой работы с контекстом. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных тестах и занимает первое место в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем.

от Контекст 1.05M144 ₽/Mвх1 150 ₽/Mвых
google

Google: Gemini 2.5 Pro Preview 06-05

Рассуждения

Gemini 2.5 Pro — это современная модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического рассуждения, программирования, математики и естественных наук. Модель использует возможности глубокого мышления, что позволяет ей выстраивать цепочки рассуждений для достижения повышенной точности и тонкой обработки контекста. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных тестах и занимает лидирующие позиции в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем. Доступ к модели осуществляется через API alltokens.

от Контекст 1.05M144 ₽/Mвх1 150 ₽/Mвых
google

Google: Gemini 2.5 Pro Preview 05-06

Рассуждения

Gemini 2.5 Pro — это передовая модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического мышления, программирования, математики и естественных наук. Модель использует возможности глубокого рассуждения, что позволяет ей выстраивать цепочки мыслей для достижения повышенной точности и тонкой обработки контекста. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных бенчмарках и занимает первое место в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем. Доступ к модели осуществляется через API alltokens.

от Контекст 1.05M144 ₽/Mвх1 150 ₽/Mвых
meta-llama

Meta: Llama 4 Maverick

Llama 4 Maverick 17B Instruct (128E) — это высокопроизводительная мультимодальная языковая модель от Meta, построенная на архитектуре смеси экспертов (MoE). Модель включает 128 экспертов и задействует 17 миллиардов активных параметров при каждом проходе, в то время как общее количество параметров составляет 400 миллиардов. Она поддерживает ввод текста и изображений на нескольких языках, а также генерирует текст и программный код на 12 поддерживаемых языках. Maverick оптимизирована для задач компьютерного зрения и обработки естественного языка, прошла обучение с подкреплением для работы в режиме ассистента, логического анализа изображений и универсального мультимодального взаимодействия. Maverick использует технологию раннего слияния для нативной мультимодальности и обладает контекстным окном в 1 миллион токенов. Модель была обучена на тщательно отобранном наборе данных из открытых и лицензионных источников, а также данных платформ Meta, общим объемом около 22 триллионов токенов. Актуальность знаний ограничена августом 2024 года. Выпущенная 5 апреля 2025 года под лицензией Llama 4 Community, Maverick подходит для исследовательских и коммерческих приложений, требующих глубокого мультимодального понимания и высокой пропускной способности. На платформе alltokens модель доступна для интеграции в различные рабочие процессы.

от Контекст 1.05M19 ₽/Mвх75 ₽/Mвых
google

Google: Gemini 2.0 Flash Lite

Удаляется 1 июня

Gemini 2.0 Flash Lite обеспечивает значительно более высокую скорость генерации первого токена (TTFT) по сравнению с Gemini Flash 1.5. При этом модель сохраняет качество работы на уровне более крупных решений, таких как Gemini Pro 1.5, предлагая максимально экономичную стоимость токенов.

от Контекст 1.05M10 ₽/Mвх38 ₽/Mвых
openai

OpenAI: GPT-4.1

GPT-4.1 — это флагманская большая языковая модель, оптимизированная для точного следования сложным инструкциям, решения задач программной инженерии и рассуждений в рамках длинного контекста. Модель поддерживает контекстное окно объемом 1 миллион токенов и превосходит GPT-4o и GPT-4.5 в таких областях, как написание кода (54,6% на тесте SWE-bench Verified), соблюдение инструкций (87,4% на IFEval) и мультимодальное понимание. GPT-4.1 настроена для генерации точных правок кода, обеспечения надежной работы автономных агентов и высокого качества извлечения информации из объемных документов. Это делает ее идеальным решением для разработки ИИ-агентов, интеграции в инструменты разработки и корпоративного поиска знаний. На платформе alltokens модель доступна для интеграции в любые рабочие процессы.

от Контекст 1.05M240 ₽/Mвх957 ₽/Mвых
openai

OpenAI: GPT-4.1 Mini

🏆 #1 в рейтинге

GPT-4.1 Mini — это модель среднего размера, обеспечивающая производительность, сопоставимую с GPT-4o, при значительно меньших задержках и стоимости. Она поддерживает контекстное окно в 1 миллион токенов и демонстрирует высокие результаты в тестах: 45,1% в сложных проверках на следование инструкциям, 35,8% в MultiChallenge и 84,1% в IFEval. Модель Mini также обладает развитыми способностями к программированию, что подтверждается результатом 31,6% в бенчмарке Aider polyglot diff, и уверенным пониманием визуального контента. Это делает её подходящим решением для интерактивных приложений с жесткими требованиями к производительности. Доступ к модели осуществляется через alltokens.

от Контекст 1.05M48 ₽/Mвх192 ₽/Mвых
openai

OpenAI: GPT-4.1 Nano

Для задач, требующих минимальной задержки, GPT-4.1 nano является самой быстрой и доступной моделью в серии GPT-4.1. Она обеспечивает исключительную производительность при компактном размере и обладает контекстным окном в 1 миллион токенов. Модель демонстрирует высокие показатели в тестах: 80,1% в MMLU, 50,3% в GPQA и 9,8% в Aider polyglot coding, что превосходит результаты GPT-4o mini. Это идеальное решение для таких задач, как классификация или автодополнение текста. На alltokens вы можете получить доступ к этой модели через API.

от Контекст 1.05M13 ₽/Mвх50 ₽/Mвых
writer

Writer: Palmyra X5

Palmyra X5 — самая продвинутая модель от Writer, специально разработанная для создания и масштабирования ИИ-агентов в корпоративной среде. Она обеспечивает лидирующую в отрасли скорость и эффективность при работе с контекстным окном до 1 миллиона токенов благодаря инновационной архитектуре трансформера и гибридным механизмам внимания. Это позволяет ускорить генерацию ответов и расширить объем памяти для обработки больших массивов корпоративных данных, что является критически важным фактором для масштабирования ИИ-агентов через alltokens.

от Контекст 1.04M72 ₽/Mвх718 ₽/Mвых
minimax

MiniMax: MiniMax-01

MiniMax-01 объединяет в себе модель MiniMax-Text-01 для генерации текста и MiniMax-VL-01 для анализа изображений. Модель содержит 456 миллиардов параметров, из которых 45,9 миллиарда активируются при каждом запросе, и поддерживает контекстное окно объемом до 4 миллионов токенов. Текстовая модель использует гибридную архитектуру, сочетающую механизмы Lightning Attention, Softmax Attention и систему Mixture-of-Experts (MoE). Модель для работы с изображениями построена на базе фреймворка ViT-MLP-LLM и обучена поверх основной текстовой модели.

от Контекст 1.00M25 ₽/Mвх137 ₽/Mвых
anthropic

Anthropic: Claude Opus 4.7 (Fast)

РассужденияНовая

Вариант Opus 4.7 в быстром режиме — те же возможности с повышенной скоростью вывода.

от Контекст 1.00M3 312 ₽/Mвх16 560 ₽/Mвых
x-ai

xAI: Grok 4.3

Рассуждения

Grok 4.3 — это модель рассуждения от xAI. Она принимает текстовые и графические данные на вход и выдает текстовый ответ. Модель подходит для агентных рабочих процессов, задач, связанных с выполнением инструкций, а также для приложений, требующих высокой точности фактической информации.

от Контекст 1.00M150 ₽/Mвх299 ₽/Mвых
~anthropic

Anthropic Claude Sonnet Latest

Рассуждения

Эта модель всегда перенаправляет на последнюю версию модели из семейства Anthropic Claude Sonnet.

от Контекст 1.00M345 ₽/Mвх1 725 ₽/Mвых
qwen

Qwen: Qwen3.5 Plus 2026-04-20

Рассуждения

Qwen3.5 Plus (апрель 2026) — крупномасштабная мультимодальная языковая модель от Alibaba. Она принимает на вход текст, изображения и видео, а на выходе генерирует текст, поддерживая контекстное окно размером 1 миллион токенов.

от Контекст 1.00M36 ₽/Mвх216 ₽/Mвых
qwen

Qwen: Qwen3.6 Flash

Рассуждения

Qwen3.6 Flash — это быстрый и эффективный языковой модель из серии Qwen 3.6 от Alibaba. Она поддерживает ввод текста, изображений и видео с контекстным окном в 1 миллион токенов.

от Контекст 1.00M24 ₽/Mвх140 ₽/Mвых
~anthropic

Anthropic: Claude Opus Latest

Рассуждения

Эта модель всегда перенаправляет на последнюю модель из семейства Claude Opus.

от Контекст 1.00M575 ₽/Mвх2 875 ₽/Mвых
anthropic

Anthropic: Claude Opus 4.7

Рассуждения
#9 в рейтинге

Opus 4.7 - это следующее поколение семейства Anthropic Opus, созданное для долгосрочных асинхронных агентов. Основываясь на сильных сторонах Opus 4.6 в области программирования и агентных возможностях, он обеспечивает более высокую производительность в...

от Контекст 1.00M575 ₽/Mвх2 875 ₽/Mвых
anthropic

Anthropic: Claude Opus 4.6 (Fast)

Рассуждения

Быстрый режим Opus 4.6 - идентичные возможности с повышенной скоростью вывода по премиальной цене в 6 раз выше.

от Контекст 1.00M3 312 ₽/Mвх16 560 ₽/Mвых
qwen

Qwen: Qwen3.6 Plus

Рассуждения
🥉 #3 в рейтинге

Qwen 3.6 Plus основан на гибридной архитектуре, сочетающей эффективное линейное внимание с разреженным маршрутизатором смеси экспертов, что обеспечивает высокую масштабируемость и производительность вывода. По сравнению с серией 3.5, он обеспечивает...

от Контекст 1.00M39 ₽/Mвх234 ₽/Mвых
nvidia

NVIDIA: Nemotron 3 Super

Рассуждения

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Многосредовое обучение с подкреплением (RL) на 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

от Контекст 1.00M12 ₽/Mвх56 ₽/Mвых
nvidia

NVIDIA: Nemotron 3 Super (Бесплатно)

Рассуждения
#18 в рейтинге

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Мульти-средовое обучение с подкреплением в 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

от Контекст 1.00MБесплатновхБесплатновых
qwen

Qwen: Qwen3.5-Flash

Рассуждения

Модели Qwen3.5 Flash с нативной поддержкой визуально-языковых задач построены на гибридной архитектуре, объединяющей механизм линейного внимания с разреженной моделью смеси экспертов, что обеспечивает более высокую эффективность логического вывода. По сравнению с третьей серией, эти модели демонстрируют качественный скачок производительности как в текстовых, так и в мультимодальных задачах, обеспечивая быстрый отклик при оптимальном балансе скорости генерации и общего качества работы.

от Контекст 1.00M9 ₽/Mвх33 ₽/Mвых
anthropic

Anthropic: Claude Sonnet 4.6

Рассуждения
#6 в рейтинге

Sonnet 4.6 — самая мощная модель класса Sonnet от Anthropic на сегодняшний день, демонстрирующая передовую производительность в программировании, работе с агентами и профессиональных задачах. Она отлично справляется с итеративной разработкой, навигацией по сложным кодовым базам, сквозным управлением проектами с использованием памяти, созданием качественной документации и уверенным управлением интерфейсом компьютера для тестирования веб-приложений и автоматизации рабочих процессов.

от Контекст 1.00M345 ₽/Mвх1 725 ₽/Mвых
qwen

Qwen: Qwen3.5 Plus 2026-02-15

Рассуждения

Серия мультимодальных моделей Qwen3.5 Plus построена на гибридной архитектуре, которая объединяет механизмы линейного внимания с разреженными моделями смеси экспертов (MoE), что обеспечивает более высокую эффективность логического вывода. В ходе оценки различных задач серия 3.5 стабильно демонстрирует производительность на уровне ведущих современных моделей. По сравнению с третьей серией, эти модели представляют собой значительный качественный скачок как в обработке чисто текстовых данных, так и в мультимодальных возможностях.

от Контекст 1.00M33 ₽/Mвх194 ₽/Mвых
anthropic

Anthropic: Claude Opus 4.6

Рассуждения

Opus 4.6 — самая мощная модель Anthropic для программирования и длительных профессиональных задач. Она создана для агентов, работающих с целыми рабочими процессами, а не с отдельными запросами, что делает ее особенно эффективной для работы с крупными кодовыми базами, сложного рефакторинга и многоэтапной отладки. Модель демонстрирует более глубокое понимание контекста, улучшенную декомпозицию проблем и повышенную надежность при выполнении сложных инженерных задач по сравнению с предыдущими поколениями. Помимо написания кода, Opus 4.6 отлично справляется с длительной интеллектуальной работой. Она создает документы, планы и аналитические отчеты высокого качества за один проход, сохраняя логическую связность в очень длинных ответах и при продолжительных сессиях. Это делает ее оптимальным выбором для задач, требующих настойчивости, взвешенных суждений и доведения дела до конца, таких как техническое проектирование, планирование миграций и комплексное выполнение проектов. Для пользователей, переходящих с предыдущих версий Opus, на alltokens доступны рекомендации по миграции.

от Контекст 1.00M575 ₽/Mвх2 875 ₽/Mвых
amazon

Amazon: Nova 2 Lite

Рассуждения

Nova 2 Lite — это быстрая и экономичная модель рассуждения для повседневных задач, способная обрабатывать текст, изображения и видео для генерации текстовых ответов. Nova 2 Lite демонстрирует выдающиеся возможности в обработке документов, извлечении информации из видео, написании программного кода, предоставлении точных обоснованных ответов и автоматизации многоэтапных рабочих процессов с использованием агентов.

от Контекст 1.00M36 ₽/Mвх299 ₽/Mвых
amazon

Amazon: Nova Premier 1.0

Amazon Nova Premier — самая мощная мультимодальная модель в линейке Amazon, предназначенная для решения сложных задач логического вывода. Она также является лучшим выбором в качестве модели-учителя для дистилляции и обучения специализированных пользовательских моделей.

от Контекст 1.00M288 ₽/Mвх1 438 ₽/Mвых
anthropic

Anthropic: Claude Sonnet 4.5

Рассуждения

Claude Sonnet 4.5 — это самая совершенная модель в линейке Sonnet от Anthropic на сегодняшний день, оптимизированная для работы автономных агентов и процессов разработки ПО. Она демонстрирует передовую производительность в тестах программирования, таких как SWE-bench Verified, показывая значительные улучшения в проектировании систем, безопасности кода и соблюдении спецификаций. Модель разработана для длительной автономной работы, обеспечивая непрерывность выполнения задач между сессиями и предоставляя отчеты о прогрессе на основе фактов. Sonnet 4.5 также внедряет расширенные агентные возможности, включая улучшенную оркестрацию инструментов, спекулятивное параллельное выполнение, а также более эффективное управление контекстом и памятью. Благодаря улучшенному отслеживанию контекста и контролю использования токенов при вызовах инструментов, модель особенно эффективна для многозадачных и длительных рабочих процессов. Сферы применения охватывают программную инженерию, кибербезопасность, финансовый анализ, исследовательских агентов и другие области, требующие глубоких рассуждений и активного использования внешних инструментов.

от Контекст 1.00M345 ₽/Mвх1 725 ₽/Mвых
qwen

Qwen: Qwen3 Coder Plus

Qwen3 Coder Plus — это проприетарная версия модели Qwen3 Coder 480B A35B от компании Alibaba. Это мощная модель-агент для написания кода, специализирующаяся на автономном программировании через вызов инструментов и взаимодействие со средой исполнения. Модель сочетает в себе высокий уровень владения навыками программирования с универсальными возможностями решения задач общего назначения. Доступ к модели осуществляется через API alltokens.

от Контекст 1.00M78 ₽/Mвх389 ₽/Mвых

Похожие модели внутри подборки

Быстрые связки для углубленного сравнения: по цене, контексту и поддерживаемым API-параметрам.

FAQ

Зачем нужен большой контекст?

Он позволяет модели удерживать больше информации в одном запросе и снижает необходимость агрессивной нарезки данных.

Какой порог используется в этой подборке?

В выборке показаны модели с контекстом от 200K токенов и выше.

Смежные подборки

Лучшие для задач

Новости по теме

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru