Гайд
Как выбрать AI-модель под задачу
Определите use-case, сравните 3-5 моделей по качеству, цене и контексту и протестируйте на ваших реальных запросах.
Полный гайд по выбору моделейСравнивайте модели по модальностям, контексту, цене и API-параметрам.
374 моделей

Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференсе активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели, при значительно меньших вычислительных затратах. Поддерживает мультимодальные входные данные, включая текст, изображения и видео (до 60 секунд с частотой 1 кадр в секунду). Оснащена 256K контекстным окном, встроенным вызовом функций, настраиваемым режимом мышления/рассуждения и поддержкой структурированного вывода. Выпущена под лицензией Apache 2.0.

Gemma 4 31B Instruct — это мультимодальная модель Google DeepMind с 30,7 млрд параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенным вызовом функций и многоязычной поддержкой более 140 языков. Отлично справляется с программированием, рассуждениями и пониманием документов. Распространяется под лицензией Apache 2.0.

Qwen 3.6 Plus основан на гибридной архитектуре, сочетающей эффективное линейное внимание с разреженным маршрутизатором смеси экспертов, что обеспечивает высокую масштабируемость и производительность вывода. По сравнению с серией 3.5, модель демонстрирует значительный прирост в агентном кодировании, разработке фронтенда и общем рассуждении, а также улучшенный опыт "vibe coding". Модель отлично справляется с сложными задачами, такими как 3D-сцены, игры и решение проблем на уровне репозиториев, достигая 78.8 баллов на SWE-bench Verified. Это представляет собой существенный скачок как в чисто текстовых, так и в мультимодальных возможностях, показывая результаты на уровне ведущих современных моделей.
GLM-5V-Turbo — это первая собственная мультимодальная базовая модель агента от Z.ai, созданная для визуального кодирования и задач, управляемых агентами. Она нативно обрабатывает изображения, видео и текстовые входы, отлично справляется с долгосрочным планированием, сложным кодированием и выполнением задач, а также работает безотказно с агентами для завершения полного цикла «восприятие → планирование → выполнение».
Trinity Large Thinking — это мощная открытая модель рассуждений от команды Arcee AI. Она демонстрирует высокую производительность в PinchBench, агентских нагрузках и задачах рассуждения. В течение первых пяти дней доступна бесплатно в open claw. Запуск видео:
Гайд
Определите use-case, сравните 3-5 моделей по качеству, цене и контексту и протестируйте на ваших реальных запросах.
Полный гайд по выбору моделейGrok 4.20 Multi-Agent — это вариант модели xAI Grok 4.20, созданный для совместной работы агентов. Несколько агентов работают параллельно для проведения глубоких исследований, координации использования инструментов и синтеза информации при решении сложных задач. Поведение при затратах на рассуждение: - низкое / среднее: 4 агента - высокое / очень высокое: 16 агентов
Grok 4.20 — новейшая флагманская модель xAI с лидирующей скоростью и возможностями агентного вызова инструментов. Она сочетает самый низкий на рынке уровень галлюцинаций с строгим соблюдением инструкций, обеспечивая стабильно точные и правдивые ответы. Режим рассуждений можно включать/выключать с помощью параметра `reasoning` `enabled` в API. Подробнее в наших документах.

Lyria 3 — это семейство моделей генерации музыки от Google, доступное через API Gemini. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых подсказок или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Pro способна генерировать полноформатные песни с припевами, куплетами и переходными частями.

Lyria 3 — это семейство моделей генерации музыки от Google, доступное через Gemini API. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых описаний или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Clip позволяет генерировать короткие клипы, петли и превью.
KAT-Coder-Pro V2 — это последняя высокопроизводительная модель в серии KAT-Coder от KwaiKAT, разработанная для сложной корпоративной разработки программного обеспечения и интеграции SaaS. Она основана на агентных возможностях кодирования предыдущих версий, с акцентом на крупномасштабные производственные среды, координацию между системами и бесшовную интеграцию в современные программные стеки, а также поддерживает генерацию веб-эстетики для создания готовых к продакшну лендингов и презентационных материалов.
Reka Edge - это чрезвычайно эффективная мультимодальная языковая модель с 7 миллиардами параметров, которая принимает изображения/видео и текст в качестве входных данных и генерирует текстовые выходы. Эта модель оптимизирована специально для обеспечения лидирующей производительности в понимании изображений, анализе видео, обнаружении объектов и использовании инструментов для агентов.
MiMo-V2-Omni - это передовая омни-модель, которая нативно обрабатывает изображения, видео и аудио в единой архитектуре. Она сочетает в себе мощное мультимодальное восприятие с агентными возможностями - визуальную привязку, многошаговое планирование, использование инструментов и выполнение кода, что делает ее идеальной для сложных реальных задач, охватывающих различные модальности. Контекстное окно 256K.
MiMo-V2-Pro — флагманская базовая модель Xiaomi, оснащенная более чем 1 трлн параметров и контекстом длиной 1 млн токенов, глубоко оптимизированная для агентных сценариев. Модель высокоадаптивна к общим агентным фреймворкам, таким как OpenClaw. Она занимает место среди мировых лидеров в стандартных бенчмарках PinchBench и ClawBench, при этом воспринимаемое качество работы приближается к уровню Opus 4.6. MiMo-V2-Pro разработана для использования в качестве «мозга» агентных систем, позволяя управлять сложными рабочими процессами, выполнять задачи инженерного производства и обеспечивать надежную доставку результатов.

MiniMax-M2.7 — это новое поколение языковых моделей, созданных для автономной продуктивности в реальном мире и непрерывного совершенствования. Разработанная для активного участия в собственной эволюции, M2.7 интегрирует продвинутые агентские возможности через мультиагентное сотрудничество, что позволяет ей планировать, выполнять и совершенствовать сложные задачи в динамичных условиях. Обученная для производительности промышленного уровня, M2.7 управляет рабочими процессами, такими как отладка в реальном времени, анализ первопричин, финансовое моделирование и полная генерация документов в Word, Excel и PowerPoint. Она демонстрирует сильные результаты на бенчмарках, включая 56,2% на SWE-Pro и 57,0% на Terminal Bench 2, а также достигает 1495 ELO на GDPval-AA, устанавливая новый стандарт для мультиагентных систем, работающих в реальных цифровых рабочих процессах.

GPT-5.4 nano — это самая легкая и экономичная версия семейства GPT-5.4, оптимизированная для задач, требующих высокой скорости и обработки больших объемов данных. Модель поддерживает текстовые и изображенческие входные данные и предназначена для использования в случаях, где критична низкая задержка, таких как классификация, извлечение данных, ранжирование и выполнение подагентов. Модель делает упор на быстроту отклика и эффективность, а не на глубокое рассуждение, что делает ее идеальной для пайплайнов, требующих быстрых и надежных результатов в больших масштабах. GPT-5.4 nano отлично подходит для фоновых задач, систем реального времени и распределенных архитектур агентов, где минимизация затрат и задержек имеет первостепенное значение.

GPT-5.4 mini предлагает основные возможности GPT-5.4 в более быстрой и эффективной модели, оптимизированной для высокопроизводительных рабочих нагрузок. Она поддерживает текстовые и изображения входные данные с высокой производительностью в рассуждениях, программировании и использовании инструментов, при этом снижая задержку и стоимость для крупномасштабных развертываний. Модель разработана для производственных сред, требующих баланса между возможностями и эффективностью, что делает ее отличным выбором для чат-приложений, программистских ассистентов и агентских рабочих процессов, работающих в масштабе. GPT-5.4 mini обеспечивает надежное следование инструкциям, солидное многошаговое рассуждение и стабильную производительность по разнообразным задачам с улучшенной экономичностью.

Mistral Small 4 — это следующее крупное обновление семейства Mistral Small, объединяющее возможности нескольких флагманских моделей Mistral в единую систему. Он сочетает в себе сильные навыки рассуждения от Magistral, мультимодальное понимание от Pixtral и агентские возможности кодирования от Devstral, позволяя одной модели выполнять сложный анализ, разработку программного обеспечения и визуальные задачи в рамках одного рабочего процесса.
pplx-embed-v1 -4B — это одна из передовых текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а 4B-параметрическая модель максимизирует качество поиска.
pplx-embed-v1-0.6B — одна из современных текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а версия с 0.6B параметров предназначена для легковесной генерации встраиваемых представлений с низкой задержкой.
GLM-5 Turbo — это новая модель от Z.ai, разработанная для быстрого вывода и высокой производительности в агентских средах, таких как сценарии OpenClaw. Модель глубоко оптимизирована для реальных агентских рабочих процессов, включающих длинные цепочки выполнения, с улучшенным разложением сложных инструкций, использованием инструментов, планированием и постоянным выполнением, а также общей стабильностью при выполнении длительных задач.

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов параметров для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Многосредовое обучение с подкреплением (RL) на 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open License, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Мульти-средовое обучение с подкреплением в 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.
Seed-2.0-Lite — это сбалансированная модель, разработанная для высокочастотных корпоративных нагрузок, оптимизированная как по производительности, так и по стоимости. Ее общая производительность превосходит предыдущее поколение Seed-1.8. Модель идеально подходит для производственных задач, таких как обработка неструктурированной информации, создание текстового контента, поиск и рекомендации, а также анализ данных. Модель поддерживает обработку длинного контекста, объединение информации из нескольких источников, выполнение многошаговых инструкций и высококачественные структурированные выходные данные — обеспечивая стабильное качество при значительном снижении затрат.

Qwen3.5-9B — это мультимодальная фундаментальная модель из семейства Qwen3.5, разработанная для обеспечения сильных способностей к рассуждению, программированию и визуальному пониманию в эффективной архитектуре с 9 миллиардами параметров. Она использует унифицированную архитектуру для обработки зрения и языка с ранней фузией мультимодальных токенов, что позволяет модели обрабатывать и рассуждать над текстом и изображениями в рамках одного контекста.

GPT-5.4 Pro — самая продвинутая модель OpenAI, построенная на унифицированной архитектуре GPT-5.4 с улучшенными способностями к рассуждению для сложных, критически важных задач. Она оснащена контекстным окном в 1M+ токенов (922K входных, 128K выходных) с поддержкой текстовых и изображений входных данных. Оптимизирована для пошагового рассуждения, следования инструкциям и точности, GPT-5.4 Pro отлично справляется с агентным кодированием, рабочими процессами с длинным контекстом и решением многошаговых задач.

GPT-5.4 — это последняя флагманская модель OpenAI, объединяющая линии Codex и GPT в единую систему. Она оснащена контекстным окном более 1 млн токенов (922 тыс. входных, 128 тыс. выходных) и поддерживает текстовые и изображенные входные данные, что позволяет выполнять высококонтекстное рассуждение, программирование и мультимодальный анализ в рамках одного рабочего процесса. Модель демонстрирует улучшенные результаты в программировании, анализе документов, использовании инструментов и следовании инструкциям. Она разработана как надежный выбор как для общих задач, так и для разработки программного обеспечения, способна генерировать код промышленного качества, синтезировать информацию из множественных источников и выполнять сложные многошаговые рабочие процессы с меньшим количеством итераций и большей эффективностью использования токенов.
Mercury 2 — это невероятно быстрая модель рассуждений и первая модель рассуждений на основе диффузии (dLLM). Вместо последовательной генерации токенов Mercury 2 производит и уточняет несколько токенов параллельно, достигая более 1000 токенов/сек на стандартных GPU. Mercury 2 в 5+ раз быстрее ведущих оптимизированных по скорости моделей, таких как Claude 4.5 Haiku и GPT 5 Mini, при значительно меньшей стоимости. Mercury 2 поддерживает настраиваемые уровни рассуждений, 128K контекста, встроенное использование инструментов и вывод JSON с соответствием схеме. Разработана для рабочих процессов кодирования, где задержка накапливается, для реального голосового поиска и циклов агентов. Совместима с OpenAI API. Подробнее в блоге.

GPT-5.3 Chat — это обновление самой популярной модели ChatGPT, которое делает повседневные разговоры более плавными, полезными и прямо отвечающими на вопросы. Модель обеспечивает более точные ответы с лучшей контекстуализацией и значительно сокращает избыточные отказы, оговорки и чрезмерно осторожные формулировки, которые могут прерывать ход беседы.

Gemini 3.1 Flash Lite Preview — это высокоэффективная модель Google, оптимизированная для задач с высоким объемом использования. Она превосходит Gemini 2.5 Flash Lite по общему качеству и приближается к производительности Gemini 2.5 Flash по ключевым возможностям. Улучшения охватывают аудиовход/ASR, ранжирование фрагментов RAG, перевод, извлечение данных и завершение кода. Поддерживает полные уровни мышления (минимальный, низкий, средний, высокий) для точной настройки компромисса между стоимостью и производительностью. Стоит в два раза дешевле Gemini 3 Flash.
Seed-2.0-mini ориентирована на сценарии с высокими требованиями к задержке, высокой интенсивности запросов и чувствительностью к затратам, делая упор на быстрый отклик и гибкое развертывание логического вывода. Модель обеспечивает производительность, сопоставимую с ByteDance-Seed-1.6, поддерживает контекстное окно 256k, четыре режима глубины рассуждений reasoning_effort (minimal, low, medium, high) и мультимодальное понимание. Она оптимизирована для легких задач, где приоритет отдается стоимости и скорости. Доступ к модели осуществляется через alltokens.

Gemini 3.1 Flash Image Preview, также известная как Nano Banana 2, — это новейшая современная модель Google для генерации и редактирования изображений, обеспечивающая визуальное качество уровня Pro на скорости Flash. Она сочетает в себе глубокое понимание контекста с быстрым и экономичным выводом, что делает создание сложных визуальных эффектов и итеративное редактирование значительно доступнее. Соотношение сторон можно настраивать с помощью параметра API image_config. Модель доступна на платформе alltokens.

Серия Qwen3.5 35B-A3B представляет собой нативную мультимодальную модель для работы с текстом и изображениями. Она построена на гибридной архитектуре, объединяющей механизмы линейного внимания и разреженную структуру смеси экспертов, что обеспечивает повышенную эффективность при генерации ответов. По общему уровню производительности модель сопоставима с версией Qwen3.5-27B. На платформе alltokens данная модель доступна для интеграции через API.

Нативная визуально-языковая плотная модель Qwen3.5 27B использует механизм линейного внимания, что обеспечивает высокую скорость отклика при сохранении баланса между производительностью и быстродействием инференса. По своим общим возможностям модель сопоставима с Qwen3.5-122B-A10B. На платформе alltokens вы можете получить доступ к этому решению для эффективной обработки данных.

Qwen3.5 122B-A10B — это нативная мультимодальная модель, построенная на гибридной архитектуре, которая сочетает механизм линейного внимания с разреженной структурой смеси экспертов для повышения эффективности логического вывода. По общей производительности данная модель уступает только флагманской версии Qwen3.5-397B-A17B. Ее возможности работы с текстом значительно превосходят показатели Qwen3-235B-2507, а навыки визуального анализа и обработки изображений выше, чем у Qwen3-VL-235B. Модель доступна через API alltokens.

Модели Qwen3.5 Flash с нативной поддержкой визуально-языковых задач построены на гибридной архитектуре, объединяющей механизм линейного внимания с разреженной моделью смеси экспертов, что обеспечивает более высокую эффективность логического вывода. По сравнению с третьей серией, эти модели демонстрируют качественный скачок производительности как в текстовых, так и в мультимодальных задачах, обеспечивая быстрый отклик при оптимальном балансе скорости генерации и общего качества работы.
LFM2-24B-A2B — самая крупная модель в семействе гибридных архитектур LFM2, разработанная для эффективного развертывания на локальных устройствах. Она построена по принципу смеси экспертов (Mixture-of-Experts) с общим объемом 24 миллиарда параметров, из которых для обработки каждого токена активируются только 2 миллиарда. Это обеспечивает высокое качество генерации при сохранении низких затрат на инференс. Модель помещается в 32 ГБ оперативной памяти, что позволяет запускать ее на потребительских ноутбуках и настольных компьютерах без потери производительности. На alltokens вы можете получить доступ к этой модели через API.

Gemini 3.1 Pro Preview Custom Tools — это специализированная версия модели Gemini 3.1 Pro, в которой оптимизирован механизм выбора инструментов. Модель реже использует стандартный bash-инструмент в тех случаях, когда доступны более эффективные сторонние или пользовательские функции. Этот предварительный эндпоинт на alltokens значительно повышает надежность вызова функций и гарантирует, что модель выберет наиболее подходящий инструмент в сценариях с кодинг-агентами и сложными рабочими процессами, включающими множество инструментов. Модель сохраняет все ключевые преимущества Gemini 3.1 Pro, включая мультимодальное рассуждение при работе с текстом, изображениями, видео, аудио и кодом, контекстное окно объемом 1 миллион токенов и высокую производительность в задачах разработки программного обеспечения.

Модель встраивания Llama Nemotron Embed VL 1B V2 оптимизирована для мультимодального поиска в задачах ответов на вопросы. Модель способна преобразовывать в векторные представления документы в виде изображений, текста или их комбинации. Поиск документов осуществляется на основе текстового запроса пользователя. Модель поддерживает обработку изображений, содержащих текст, таблицы, диаграммы и инфографику. Примечание: при использовании бесплатного доступа все запросы и результаты логируются для улучшения модели и сопутствующих сервисов. Пожалуйста, не загружайте личную, конфиденциальную или иную чувствительную информацию. Данный доступ предназначен только для ознакомительного использования. Не используйте его для производственных или критически важных бизнес-систем.

GPT-5.3-Codex — это самая совершенная агентная модель OpenAI для написания кода, объединяющая передовую производительность в области программной инженерии GPT-5.2-Codex с расширенными возможностями рассуждения и профессиональными знаниями GPT-5.2. Модель демонстрирует лучшие в отрасли результаты в тестах SWE-Bench Pro, а также высокие показатели в Terminal-Bench 2.0 и OSWorld-Verified, что подтверждает улучшенные навыки многоязычного программирования, владения терминалом и взаимодействия с компьютерной средой в реальных условиях. Модель оптимизирована для длительных рабочих процессов с использованием инструментов и поддерживает интерактивное управление во время выполнения, что делает ее подходящей для сложных задач разработки, отладки, развертывания и итеративной работы над продуктом. Помимо программирования, GPT-5.3-Codex показывает отличные результаты в бенчмарках для структурированной интеллектуальной работы, таких как GDPval, поддерживая такие задачи, как составление документов, анализ электронных таблиц, создание презентаций и операционные исследования в различных областях. Модель обучена с повышенным вниманием к кибербезопасности, включая возможности выявления уязвимостей, и развернута с дополнительными мерами защиты для сценариев использования с высоким уровнем риска. По сравнению с предыдущими моделями Codex, она более эффективна в расходе токенов и работает примерно на 25% быстрее, ориентируясь на профессиональные сквозные рабочие процессы, охватывающие логические рассуждения, выполнение кода и взаимодействие с компьютером.
Aion-2.0 — это модификация модели DeepSeek V3.2, оптимизированная для глубокого ролевого взаимодействия и сторителлинга. Модель особенно эффективна в создании напряжения, кризисных ситуаций и конфликтов, что делает повествование более захватывающим. Она также способна прорабатывать взрослые и мрачные темы с высокой степенью детализации и глубины.
Страница агрегирует актуальные LLM-модели с единым API-доступом, ценами в рублях и рабочими параметрами интеграции. Используйте фильтры ниже для подбора под качество, стоимость и ограничения по контексту.
Моделей в каталоге
374
Средняя цена входа
146,63 ₽/M
Максимальный контекст
2.0M
Быстрые пары для сравнения стоимости на одинаковом ценовом уровне.
LiquidAI: LFM2-24B-A2B ↔ Google: Lyria 3 Clip Preview
Разница в цене: около 20%
Google: Lyria 3 Clip Preview ↔ Qwen: Qwen3.5-9B
Разница в цене: около 17%
Qwen: Qwen3.5-9B ↔ Qwen: Qwen3.5-Flash
Разница в цене: около 29%
Qwen: Qwen3.5-Flash ↔ Google: Lyria 3 Pro Preview
Разница в цене: около 22%
Google: Lyria 3 Pro Preview ↔ Reka Edge
Разница в цене: около 27%
Reka Edge ↔ NVIDIA: Nemotron 3 Super
Разница в цене: около 0%
Ссылки для быстрого сравнения моделей с похожими параметрами API.
Google: Gemma 4 26B A4B ↔ Google: Gemma 4 31B
Общих параметров: 16
Qwen: Qwen3.6 Plus (Бесплатно) ↔ Google: Gemma 4 26B A4B
Общих параметров: 11
Z.ai: GLM 5V Turbo ↔ Google: Gemma 4 26B A4B
Общих параметров: 8
Arcee AI: Trinity Large Thinking ↔ Google: Gemma 4 26B A4B
Общих параметров: 16
xAI: Grok 4.20 Multi-Agent ↔ xAI: Grok 4.20
Общих параметров: 10
xAI: Grok 4.20 ↔ Qwen: Qwen3.5-9B
Общих параметров: 11