Alltokens

Недорогие LLM-модели с лучшим соотношением цена/качество

Если приоритет — экономичность, начинайте с этой выборки. Здесь модели с низкой стоимостью входа и приемлемым качеством для массовых сценариев.

Моделей в подборке

60

Средняя цена (вход)

1 ₽/M

Макс. контекст

2.0M

Модели

baidu

Baidu Qianfan: CoBuddy (Бесплатно)

Рассуждения

CoBuddy — это модель генерации кода от Baidu, оптимизированная для задач программирования и рабочих процессов AI-агентов. Она обеспечивает высокую пропускную способность при выводе и низкую задержку от начала до конца, с нативной поддержкой инструментов.

от Контекст 131KБесплатновхБесплатновых
alltokens

Owl Alpha

Owl Alpha — это высокопроизводительная базовая модель, разработанная для агентных задач. Она изначально поддерживает использование инструментов и работу с длинным контекстом, демонстрируя высокую эффективность в генерации кода, автоматизации рабочих процессов и выполнении сложных инструкций.

от Контекст 1.05MБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron 3 Nano Omni (Бесплатно)

Рассуждения

NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель с 30 миллиардами параметров, разработанная для работы в качестве подсистемы восприятия и контекста в корпоративных агентных системах. Модель принимает текст, изображения, видео и другие виды данных.

от Контекст 256KБесплатновхБесплатновых
poolside

Poolside: Laguna XS.2 (Бесплатно)

Рассуждения

Laguna XS.2 — модель второго поколения в классе XS от Poolside, их серии эффективных агентов для кодирования. Она сочетает в себе возможности вызова инструментов и логического мышления при компактных размерах, предлагая...

от Контекст 131KБесплатновхБесплатновых
poolside

Poolside: Laguna M.1 (Бесплатно)

Рассуждения
#5 в рейтинге

Laguna M.1 — это флагманская модель агента для программирования от Poolside, оптимизированная для выполнения сложных задач в области разработки программного обеспечения. Созданная для агентных рабочих процессов программирования, модель поддерживает вызов инструментов и логическое рассуждение, с контекстом в 128 тысяч токенов.

от Контекст 131KБесплатновхБесплатновых
deepseek

DeepSeek: DeepSeek V4 Flash (Бесплатно)

Рассуждения

DeepSeek V4 Flash — это оптимизированная по эффективности модель Mixture-of-Experts от DeepSeek с общим числом параметров 284 миллиарда и 13 миллиардами активируемых параметров, поддерживающая контекстное окно в 1 миллион токенов. Модель разработана для быстрого вывода и...

от Контекст 1.05MБесплатновхБесплатновых
alltokens

Pareto Code Router

Pareto Router — это способ, с помощью которого alltokens всегда выбирает для вас мощную модель для кодирования в соответствии с вашими потребностями, не привязываясь к конкретной модели. Вы выражаете единственное предпочтение `min_coding_score`...

от Контекст 2.00MБесплатновхБесплатновых
google

Google: Gemma 4 26B A4B (Бесплатно)

Рассуждения

Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференции активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели.

от Контекст 262KБесплатновхБесплатновых
google

Google: Gemma 4 31B (Бесплатно)

Рассуждения

Gemma 4 31B Instruct - это мультимодальная плотная модель Google DeepMind объемом 30,7 миллиарда параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенными функциями...

от Контекст 262KБесплатновхБесплатновых
arcee-ai

Arcee AI: Trinity Large Thinking (Бесплатно)

Рассуждения

Trinity Large Thinking — это мощная модель рассуждения с открытым исходным кодом от команды Arcee AI. Она демонстрирует высокую производительность в тестах PinchBench, агентных задачах и задачах, требующих логического мышления.

от Контекст 262KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron 3 Super (Бесплатно)

Рассуждения
#18 в рейтинге

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Мульти-средовое обучение с подкреплением в 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

от Контекст 1.00MБесплатновхБесплатновых
nvidia

NVIDIA: Llama Nemotron Embed VL 1B V2 (Бесплатно)

Модель встраивания Llama Nemotron Embed VL 1B V2 оптимизирована для мультимодального поиска в задачах ответов на вопросы. Модель способна преобразовывать в векторные представления документы в виде изображений, текста или их комбинации. Поиск документов осуществляется на основе текстового запроса пользователя. Модель поддерживает обработку изображений, содержащих текст, таблицы, диаграммы и инфографику. Примечание: при использовании бесплатного доступа все запросы и результаты логируются для улучшения модели и сопутствующих сервисов. Пожалуйста, не загружайте личную, конфиденциальную или иную чувствительную информацию. Данный доступ предназначен только для ознакомительного использования. Не используйте его для производственных или критически важных бизнес-систем.

от Контекст 131KБесплатновхвых
minimax

MiniMax: MiniMax M2.5 (Бесплатно)

Рассуждения

MiniMax-M2.5 — это современная языковая модель, разработанная для повышения продуктивности в реальных условиях. Обученная в разнообразных сложных цифровых рабочих средах, M2.5 расширяет кодировочные возможности M2.1, охватывая общий офисный функционал. Модель достигла высокого уровня владения созданием и управлением файлами Word, Excel и PowerPoint, переключением контекста между различными программными средами и работой в командах с агентами и людьми. M2.5 демонстрирует впечатляющие результаты: 80,2% на SWE-Bench Verified, 51,3% на Multi-SWE-Bench и 76,3% на BrowseComp. Кроме того, модель более эффективна в использовании токенов по сравнению с предыдущими поколениями, поскольку обучена оптимизировать свои действия и вывод через планирование.

от Контекст 205KБесплатновхБесплатновых
alltokens

Free Models Router

Рассуждения

Самый простой способ получить бесплатный доступ к нейросетям. alltokens/free — это роутер, который случайным образом выбирает бесплатные модели из доступных на платформе alltokens. Система интеллектуально фильтрует модели, поддерживающие необходимые для вашего запроса функции, такие как анализ изображений, вызов инструментов, структурированные ответы и другие возможности.

от Контекст 200KБесплатновхБесплатновых
liquid

LiquidAI: LFM2.5-1.2B-Thinking (Бесплатно)

Рассуждения

LFM2.5-1.2B-Thinking — это легкая модель, ориентированная на логические рассуждения и оптимизированная для работы агентов, извлечения данных и задач RAG, при этом она стабильно работает на периферийных устройствах. Модель поддерживает длинный контекст до 32 000 токенов и разработана для обеспечения высококачественных цепочек рассуждений при компактном размере в 1,2 миллиарда параметров. На alltokens модель доступна для интеграции в различные рабочие процессы.

от Контекст 33KБесплатновхБесплатновых
liquid

LiquidAI: LFM2.5-1.2B-Instruct (Бесплатно)

LFM2.5-1.2B-Instruct — это компактная высокопроизводительная модель, оптимизированная для выполнения инструкций и предназначенная для быстрой работы ИИ непосредственно на устройствах. При размере всего в 1,2 миллиарда параметров она обеспечивает высокое качество диалога, эффективный вывод на периферийных устройствах и широкую поддержку различных сред исполнения.

от Контекст 33KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron 3 Nano 30B A3B (Бесплатно)

Рассуждения

NVIDIA Nemotron 3 Nano 30B A3B — это компактная языковая модель с архитектурой Mixture of Experts (MoE), обладающая высочайшей вычислительной эффективностью и точностью. Она предназначена для разработки специализированных агентных систем искусственного интеллекта. Модель является полностью открытой: доступны веса, наборы данных и методики обучения. Это позволяет разработчикам легко настраивать, оптимизировать и развертывать решение на собственной инфраструктуре для обеспечения максимальной конфиденциальности и безопасности. Примечание: при использовании бесплатного доступа все запросы и ответы сохраняются для улучшения модели и сопутствующих сервисов. Пожалуйста, не передавайте персональную, конфиденциальную или иную конфиденциальную информацию. Данный доступ предназначен только для ознакомления. Не используйте его для производственных или критически важных бизнес-систем. На платформе alltokens вы можете протестировать возможности данной модели.

от Контекст 256KБесплатновхБесплатновых
alltokens

Body Builder (beta)

Преобразуйте ваши запросы на естественном языке в структурированные объекты запросов API alltokens. Опишите, что вы хотите реализовать с помощью моделей ИИ, и Body Builder сформирует соответствующие вызовы API. Пример: посчитай до 10, используя gemini и opus. Этот инструмент полезен для создания мультимодельных запросов, кастомных роутеров моделей или программной генерации вызовов API на основе человеческих описаний. УВЕДОМЛЕНИЕ О БЕТА-ТЕСТИРОВАНИИ: Body Builder находится на стадии бета-тестирования и в данный момент предоставляется бесплатно. Стоимость и функциональные возможности могут измениться в будущем.

от Контекст 128KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron Nano 12B 2 VL (Бесплатно)

Рассуждения

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 2 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает в себе точность трансформеров с эффективным моделированием последовательностей Mamba. Это обеспечивает значительно более высокую пропускную способность и низкую задержку при работе. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, отобранных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки распространяются под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

от Контекст 128KБесплатновхБесплатновых
qwen

Qwen: Qwen3 Next 80B A3B Instruct (Бесплатно)

Qwen3-Next-80B-A3B-Instruct — это оптимизированная для инструкций чат-модель серии Qwen3-Next, разработанная для получения быстрых и стабильных ответов без вывода цепочки рассуждений. Модель ориентирована на решение сложных задач в области логического вывода, генерации кода, ответов на вопросы и многоязычного использования, сохраняя при этом высокую точность следования формату и инструкциям. По сравнению с предыдущими вариантами Qwen3, данная версия фокусируется на повышенной пропускной способности и стабильности при работе с очень длинными входными данными и многоходовыми диалогами. Это делает ее подходящей для систем RAG, использования внешних инструментов и агентных рабочих процессов, где требуются последовательные финальные ответы, а не видимый процесс размышления. Модель использует эффективные методы обучения и декодирования для улучшения использования параметров и скорости инференса. Она прошла проверку на широком наборе публичных тестов, где достигла или приблизилась к показателям более крупных систем Qwen3, превзойдя при этом предыдущие базовые модели среднего размера. Qwen3-Next-80B-A3B-Instruct лучше всего подходит на роль универсального ассистента, помощника в написании кода и инструмента для решения задач с длинным контекстом в рабочих средах, где приоритет отдается детерминированным ответам и точному следованию инструкциям. Все возможности модели доступны через API alltokens.

от Контекст 262KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron Nano 9B V2 (Бесплатно)

Рассуждения

NVIDIA-Nemotron-Nano-9B-v2 — это большая языковая модель, разработанная NVIDIA с нуля. Она спроектирована как универсальное решение для задач, требующих и не требующих логических рассуждений. Модель обрабатывает запросы пользователей, сначала формируя цепочку рассуждений, а затем выдавая итоговый ответ. Возможности логического вывода модели можно контролировать с помощью системного промпта. Если пользователю требуется получить прямой ответ без промежуточных этапов рассуждения, модель можно настроить соответствующим образом через alltokens.

от Контекст 128KБесплатновхБесплатновых
openai

OpenAI: gpt-oss-120b (Бесплатно)

Рассуждения
#17 в рейтинге

gpt-oss-120b — это языковая модель с открытыми весами на базе архитектуры Mixture-of-Experts (MoE), содержащая 117 миллиардов параметров и разработанная OpenAI для задач, требующих глубоких рассуждений, работы агентов и общего промышленного использования. Модель активирует 5,1 миллиарда параметров при каждом проходе и оптимизирована для работы на одном графическом процессоре H100 с использованием нативного квантования MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей (chain-of-thought) и встроенные инструменты, включая вызов функций, поиск в сети и генерацию структурированных данных. Доступ к модели осуществляется через API alltokens.

от Контекст 131KБесплатновхБесплатновых
openai

OpenAI: gpt-oss-20b (Бесплатно)

Рассуждения

gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на каждый проход, что оптимизировано для снижения задержек при инференсе и возможности развертывания на потребительском оборудовании или одиночных графических процессорах. Модель обучена в формате ответов Harmony и поддерживает настройку уровней рассуждения, тонкую настройку, а также агентские возможности, включая вызов функций, использование инструментов и структурированный вывод. Доступ к модели осуществляется через API alltokens.

от Контекст 131KБесплатновхБесплатновых
z-ai

Z.ai: GLM 4.5 Air (Бесплатно)

Рассуждения
#7 в рейтинге

GLM-4.5-Air — это облегченная версия флагманского семейства моделей, специально разработанная для работы в качестве ИИ-агентов. Как и основная модель GLM-4.5, она использует архитектуру Mixture-of-Experts (MoE), но обладает более компактным количеством параметров. GLM-4.5-Air поддерживает гибридные режимы инференса: режим мышления для сложного логического вывода и использования инструментов, а также обычный режим для взаимодействия в реальном времени. Пользователи могут управлять поведением модели с помощью логического параметра reasoning enabled через API alltokens.

от Контекст 131KБесплатновхБесплатновых
qwen

Qwen: Qwen3 Coder 480B A35B (Бесплатно)

Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на базе архитектуры Mixture-of-Experts (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждение в рамках длинного контекста при работе с репозиториями. Модель содержит в общей сложности 480 миллиардов параметров, из которых 35 миллиардов активны при каждом проходе (используются 8 из 160 экспертов). Стоимость использования через API alltokens зависит от длины контекста. Если объем входного запроса превышает 128 000 токенов, применяется повышенный тариф.

от Контекст 1.05MБесплатновхБесплатновых
cognitivecomputations

Venice: Uncensored (Бесплатно)

Venice Uncensored Dolphin Mistral 24B Venice Edition — это специализированная версия модели Mistral-Small-24B-Instruct-2501, разработанная dphn.ai совместно с Venice.ai. Данная модель спроектирована как «нецензурированная» LLM с инструктивным обучением, что обеспечивает пользователю полный контроль над мировоззрением, системными подсказками и поведением ИИ. Предназначенная для продвинутых сценариев использования без ограничений, Venice Uncensored делает упор на управляемость и прозрачность ответов, исключая стандартные уровни безопасности и выравнивания, которые обычно присутствуют в массовых моделях-ассистентах. Доступ к модели осуществляется через API alltokens.

от Контекст 33KБесплатновхБесплатновых
meta-llama

Meta: Llama 3.3 70B Instruct (Бесплатно)

Мультиязычная большая языковая модель Meta Llama 3.3 — это предварительно обученная и оптимизированная для инструкций генеративная модель объемом 70 миллиардов параметров (ввод и вывод текста). Модель Llama 3.3, настроенная для работы с текстовыми инструкциями, оптимизирована для сценариев многоязычного диалога и превосходит многие доступные открытые и закрытые чат-модели в популярных отраслевых тестах. Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Доступ к модели предоставляется через API alltokens.

от Контекст 131KБесплатновхБесплатновых
meta-llama

Meta: Llama 3.2 3B Instruct (Бесплатно)

Llama 3.2 3B — это мультиязычная большая языковая модель с 3 миллиардами параметров, оптимизированная для сложных задач обработки естественного языка, таких как ведение диалога, логический вывод и суммаризация текстов. Модель построена на современной архитектуре transformer и поддерживает восемь языков, включая английский, испанский и хинди, с возможностью адаптации под другие языковые группы. Обученная на массиве из 9 триллионов токенов, Llama 3.2 3B демонстрирует отличные результаты в следовании инструкциям, сложном логическом мышлении и использовании внешних инструментов. Сбалансированная производительность делает ее идеальным решением для приложений, требующих точности и эффективности генерации текста в мультиязычных средах. Использование данной модели на alltokens регулируется политикой допустимого использования Meta.

от Контекст 131KБесплатновхБесплатновых
nousresearch

Nous: Hermes 3 405B Instruct (Бесплатно)

Hermes 3 — это универсальная языковая модель, получившая множество улучшений по сравнению с Hermes 2, включая продвинутые возможности автономных агентов, значительно улучшенное ролевое взаимодействие, логическое мышление, ведение многоходовых диалогов, связность при работе с длинным контекстом и общую оптимизацию всех характеристик. Hermes 3 405B представляет собой полнопараметрическую тонкую настройку базовой модели Llama-3.1 405B флагманского уровня. Основное внимание в ней уделено адаптации ИИ под нужды пользователя, предоставлению мощных инструментов управления и контроля конечному потребителю. Серия Hermes 3 расширяет возможности Hermes 2, предлагая более надежный вызов функций, работу со структурированными данными, навыки универсального помощника и улучшенную генерацию программного кода. Hermes 3 сопоставима, а в некоторых аспектах превосходит модели Llama-3.1 Instruct по общим возможностям, обладая при этом уникальным балансом сильных и слабых сторон. На платформе alltokens вы можете получить доступ к этой модели через API.

от Контекст 131KБесплатновхБесплатновых
alltokens

Auto Router

Рассуждения

Ваш запрос будет обработан мета-моделью и направлен в одну из десятков доступных моделей для достижения наилучшего результата. Чтобы узнать, какая именно модель была использована, проверьте историю активности или атрибут model в ответе API. Стоимость запроса соответствует тарифу выбранной модели. Вы можете настроить список моделей для маршрутизации в документации. Запросы направляются в следующие модели: - anthropic/claude-haiku-4.5 - anthropic/claude-opus-4.6 - anthropic/claude-sonnet-4.5 - deepseek/deepseek-r1 - google/gemini-2.5-flash-lite - google/gemini-3-flash-preview - google/gemini-3-pro-preview - meta-llama/llama-3.3-70b-instruct - mistralai/codestral-2508 - mistralai/mistral-large - mistralai/mistral-medium-3.1 - mistralai/mistral-small-3.2-24b-instruct-2506 - moonshotai/kimi-k2-thinking - moonshotai/kimi-k2.5 - openai/gpt-5 - openai/gpt-5-mini - openai/gpt-5-nano - openai/gpt-5.1 - openai/gpt-5.2 - openai/gpt-5.2-pro - openai/gpt-oss-120b - perplexity/sonar - qwen/qwen3-235b-a22b - x-ai/grok-3 - x-ai/grok-3-mini - x-ai/grok-4

от Контекст 2.00MБесплатновхБесплатновых
perplexity

Perplexity: Embed V1 0.6B

pplx-embed-v1-0.6B — одна из современных текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а версия с 0.6B параметров предназначена для легковесной генерации встраиваемых представлений с низкой задержкой.

от Контекст 32K1 ₽/Mвхвых
thenlper

Thenlper: GTE-Base

Модель эмбеддингов gte-base преобразует английские предложения и абзацы в плотное векторное пространство размерностью 768. Она обеспечивает эффективное и качественное создание семантических эмбеддингов, оптимизированных для задач определения текстового сходства, семантического поиска и кластеризации.

от Контекст 8K1 ₽/Mвхвых
intfloat

Intfloat: E5-Base-v2

Модель эмбеддингов e5-base-v2 преобразует предложения и абзацы на английском языке в плотные векторы размерностью 768. Она создает эффективные и высококачественные семантические эмбеддинги, оптимизированные для таких задач, как семантический поиск, оценка сходства, поиск информации и кластеризация. Модель доступна через API alltokens.

от Контекст 8K1 ₽/Mвхвых
sentence-transformers

Sentence Transformers: paraphrase-MiniLM-L6-v2

Модель эмбеддингов paraphrase-MiniLM-L6-v2 преобразует предложения и короткие абзацы в 384-мерное плотное векторное пространство. Она создает высококачественные семантические эмбеддинги, оптимизированные для обнаружения парафраза, оценки семантического сходства, кластеризации и задач легковесного поиска данных.

от Контекст 8K1 ₽/Mвхвых
sentence-transformers

Sentence Transformers: all-MiniLM-L12-v2

Модель эмбеддингов all-MiniLM-L12-v2 преобразует предложения и короткие абзацы в 384-мерное плотное векторное пространство. Она создает эффективные и высококачественные семантические эмбеддинги, оптимизированные для таких задач, как семантический поиск, кластеризация и оценка сходства текстов.

от Контекст 8K1 ₽/Mвхвых
baai

BAAI: bge-base-en-v1.5

Модель эмбеддингов bge-base-en-v1.5 преобразует английские предложения и абзацы в плотные векторы размерности 768, обеспечивая эффективные и высококачественные семантические представления. Модель оптимизирована для задач поиска, семантического анализа и сопоставления документов. Версия v1.5 отличается улучшенным распределением показателей сходства и более высокой производительностью поиска без необходимости дополнительной настройки.

от Контекст 8K1 ₽/Mвхвых
sentence-transformers

Sentence Transformers: multi-qa-mpnet-base-dot-v1

Модель эмбеддингов multi-qa-mpnet-base-dot-v1 преобразует предложения и короткие абзацы в плотное векторное пространство размерностью 768. Она генерирует высококачественные семантические эмбеддинги, оптимизированные для поиска ответов на вопросы, семантического поиска и оценки сходства текстов в различных типах контента.

от Контекст 8K1 ₽/Mвхвых
sentence-transformers

Sentence Transformers: all-mpnet-base-v2

Модель эмбеддингов all-mpnet-base-v2 преобразует предложения и короткие абзацы в плотное векторное пространство размерности 768. Она обеспечивает высокую точность семантических представлений, которые отлично подходят для таких задач, как поиск информации, кластеризация, оценка сходства и ранжирование текстов.

от Контекст 8K1 ₽/Mвхвых
sentence-transformers

Sentence Transformers: all-MiniLM-L6-v2

Модель эмбеддингов all-MiniLM-L6-v2 преобразует предложения и короткие абзацы в плотное векторное пространство размерностью 384. Это обеспечивает высококачественное семантическое представление данных, которое идеально подходит для таких задач, как поиск информации, кластеризация, оценка сходства и ранжирование текста. Модель доступна через API alltokens.

от Контекст 8K1 ₽/Mвхвых
inclusionai

inclusionAI: Ling-2.6-flash

Ling-2.6-flash — это мгновенная (инструктивная) модель от inclusionAI с общим числом параметров 104 миллиарда и активными параметрами 7,4 миллиарда, разработанная для реальных агентов, которым необходимы быстрые ответы, высокая производительность и эффективное использование токенов.

от Контекст 262K2 ₽/Mвх4 ₽/Mвых
thenlper

Thenlper: GTE-Large

Модель эмбеддингов gte-large преобразует английские предложения, абзацы и документы средней длины в 1024-мерное векторное пространство. Она обеспечивает высококачественные семантические эмбеддинги, оптимизированные для задач поиска информации, определения семантического сходства текстов, переранжирования и кластеризации. Модель обучена с использованием многоэтапного контрастивного обучения на обширном корпусе релевантных данных из различных областей, что гарантирует отличную производительность в универсальных сценариях использования эмбеддингов на alltokens.

от Контекст 8K2 ₽/Mвхвых
intfloat

Intfloat: E5-Large-v2

Модель эмбеддингов e5-large-v2 преобразует английские предложения, абзацы и документы в плотное векторное пространство размерностью 1024. Она обеспечивает высокую точность семантических представлений, оптимизированных для задач поиска информации, семантического поиска, переранжирования и оценки сходства текстов. Модель доступна через API alltokens.

от Контекст 8K2 ₽/Mвхвых
intfloat

Intfloat: Multilingual-E5-Large

Модель эмбеддингов multilingual-e5-large преобразует предложения, абзацы и документы на более чем 90 языках в 1024-мерное векторное пространство. Она обеспечивает создание качественных семантических векторов, оптимизированных для многоязычного поиска, определения сходства текстов на разных языках и обработки крупномасштабных массивов данных через API alltokens.

от Контекст 8K2 ₽/Mвхвых
baai

BAAI: bge-large-en-v1.5

Модель эмбеддингов bge-large-en-v1.5 преобразует английские предложения, абзацы и документы в плотное векторное пространство размерностью 1024. Она обеспечивает высокоточное семантическое представление данных, оптимизированное для семантического поиска, поиска документов и решения прикладных задач обработки естественного языка на английском языке. Модель доступна через API alltokens.

от Контекст 8K2 ₽/Mвхвых
baai

BAAI: bge-m3

Модель эмбеддингов bge-m3 преобразует предложения, абзацы и длинные документы в плотное векторное пространство размерностью 1024. Она обеспечивает высококачественные семантические эмбеддинги, оптимизированные для мультиязычного поиска, семантического анализа и работы с приложениями, требующими обработки большого контекста.

от Контекст 8K2 ₽/Mвхвых
qwen

Qwen: Qwen3 Embedding 8B

Серия моделей Qwen3 Embedding — это новейшая разработка в семействе Qwen, специально созданная для задач встраивания текста и ранжирования. Данная серия унаследовала исключительные мультиязычные возможности, навыки понимания длинных текстов и логического вывода от своей базовой модели. Серия Qwen3 Embedding демонстрирует значительные успехи в различных задачах обработки текста, включая поиск текстовой информации, поиск кода, классификацию, кластеризацию и поиск параллельных корпусов текстов.

от Контекст 32K2 ₽/Mвхвых
openai

OpenAI: Text Embedding 3 Small

text-embedding-3-small — это улучшенная и более производительная версия модели встраивания ada от OpenAI. Встраивания (embeddings) представляют собой числовое выражение текста, которое позволяет измерять степень смысловой близости между различными фрагментами данных. Данная модель эффективна для решения задач поиска, кластеризации, формирования рекомендаций, обнаружения аномалий и классификации текста. На платформе alltokens вы можете использовать эту модель для создания высокоточных векторных представлений.

от Контекст 8K3 ₽/Mвхвых
qwen

Qwen: Qwen3 Embedding 4B

Серия моделей Qwen3 Embedding — это новейшая разработка в семействе Qwen, специально созданная для задач встраивания текста и ранжирования. Данная серия унаследовала исключительные мультиязычные возможности, навыки понимания длинных текстов и логического вывода от своей базовой модели. Серия Qwen3 Embedding демонстрирует значительные успехи в различных задачах обработки текстов, включая поиск текстовой информации, поиск кода, классификацию, кластеризацию и поиск параллельных корпусов данных. На платформе alltokens эти модели обеспечивают высокую точность и производительность для современных ИИ-решений.

от Контекст 33K3 ₽/Mвхвых
ibm-granite

IBM: Granite 4.0 Micro

Granite-4.0-H-Micro — это модель с 3 миллиардами параметров из семейства Granite 4. Данные модели являются последними в серии релизов от IBM. Они специально оптимизированы для работы с длинным контекстом и вызова внешних инструментов.

от Контекст 131K3 ₽/Mвх14 ₽/Mвых
meta-llama

Meta: Llama 3.1 8B Instruct

Новейшая линейка моделей Meta Llama 3.1 представлена в различных конфигурациях. Данная версия 8B с дообучением для следования инструкциям отличается высокой скоростью и эффективностью. В ходе экспертных оценок модель продемонстрировала высокие результаты, сопоставимые с ведущими проприетарными моделями. Использование данной модели на alltokens регулируется политикой допустимого использования Meta.

от Контекст 131K3 ₽/Mвх7 ₽/Mвых
mistralai

Mistral: Mistral Nemo

Модель с 12 миллиардами параметров и контекстным окном в 128 000 токенов, разработанная Mistral в сотрудничестве с NVIDIA. Модель является мультиязычной и поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский языки и хинди. Она поддерживает вызов функций (function calling) и распространяется под лицензией Apache 2.0.

от Контекст 131K3 ₽/Mвх4 ₽/Mвых
perplexity

Perplexity: Embed V1 4B

pplx-embed-v1 -4B — это одна из передовых текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а 4B-параметрическая модель максимизирует качество поиска.

от Контекст 32K4 ₽/Mвхвых
liquid

LiquidAI: LFM2-24B-A2B

LFM2-24B-A2B — самая крупная модель в семействе гибридных архитектур LFM2, разработанная для эффективного развертывания на локальных устройствах. Она построена по принципу смеси экспертов (Mixture-of-Experts) с общим объемом 24 миллиарда параметров, из которых для обработки каждого токена активируются только 2 миллиарда. Это обеспечивает высокое качество генерации при сохранении низких затрат на инференс. Модель помещается в 32 ГБ оперативной памяти, что позволяет запускать ее на потребительских ноутбуках и настольных компьютерах без потери производительности. На alltokens вы можете получить доступ к этой модели через API.

от Контекст 128K4 ₽/Mвх15 ₽/Mвых
openai

OpenAI: gpt-oss-20b

Рассуждения

gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на каждый проход, что оптимизирует ее для работы с низкой задержкой и позволяет развертывать на потребительском оборудовании или одиночных графических процессорах. Модель обучена в формате ответов Harmony и поддерживает настройку уровней рассуждения, дообучение, а также агентские возможности, включая вызов функций, использование инструментов и структурированный вывод данных. На платформе alltokens модель доступна для интеграции через API.

от Контекст 131K4 ₽/Mвх18 ₽/Mвых
meta-llama

Meta: Llama 3.2 1B Instruct

Llama 3.2 1B — это языковая модель с 1 миллиардом параметров, ориентированная на эффективное выполнение задач обработки естественного языка, таких как суммаризация, ведение диалогов и многоязычный анализ текста. Компактный размер позволяет модели эффективно работать в средах с ограниченными ресурсами, сохраняя при этом высокую производительность. Поддерживая восемь основных языков с возможностью дообучения на другие, Llama 3.2 1B идеально подходит для компаний и разработчиков, которым требуются легкие, но мощные ИИ-решения. Модель способна работать в различных многоязычных сценариях без высоких требований к вычислительным мощностям, характерных для более крупных моделей. Использование данной модели регулируется политикой допустимого использования Meta. Доступ к модели осуществляется через alltokens.

от Контекст 131K4 ₽/Mвх25 ₽/Mвых
google

Google: Lyria 3 Clip Preview

Lyria 3 — это семейство моделей генерации музыки от Google, доступное через Gemini API. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых описаний или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Clip позволяет генерировать короткие клипы, петли и превью.

от Контекст 1.05MАудио-сниппет 30 сек: 4,97 ₽/M за клип
qwen

Qwen: Qwen3.5-9B

Рассуждения

Qwen3.5-9B — это мультимодальная фундаментальная модель из семейства Qwen3.5, разработанная для обеспечения сильных способностей к рассуждению, программированию и визуальному пониманию в эффективной архитектуре с 9 миллиардами параметров. Она использует унифицированную архитектуру для обработки зрения и языка с ранней фузией мультимодальных токенов, что позволяет модели обрабатывать и рассуждать над текстом и изображениями в рамках одного контекста.

от Контекст 262K5 ₽/Mвх19 ₽/Mвых
nvidia

NVIDIA: Nemotron Nano 9B V2

Рассуждения

NVIDIA-Nemotron-Nano-9B-v2 — это большая языковая модель, разработанная NVIDIA с нуля. Она спроектирована как универсальное решение для задач, требующих и не требующих логических рассуждений. Модель обрабатывает запросы пользователей, сначала формируя цепочку рассуждений, а затем выдавая итоговый ответ. Возможности логического вывода модели можно контролировать с помощью системного промпта. Если пользователю требуется получить прямой ответ без промежуточных этапов рассуждения, модель можно настроить соответствующим образом. На alltokens вы можете интегрировать это решение в свои проекты.

от Контекст 131K5 ₽/Mвх20 ₽/Mвых
openai

OpenAI: gpt-oss-120b

Рассуждения

gpt-oss-120b — это языковая модель с открытыми весами на базе архитектуры Mixture-of-Experts (MoE), содержащая 117 миллиардов параметров и разработанная OpenAI для сложных логических задач, работы автономных агентов и универсального промышленного использования. Модель активирует 5,1 миллиарда параметров при каждом проходе и оптимизирована для запуска на одном графическом процессоре H100 с использованием нативного квантования MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей (chain-of-thought) и нативную работу с инструментами, включая вызов функций, поиск в сети и генерацию структурированных данных. На alltokens вы можете получить доступ к этой модели через API.

от Контекст 131K5 ₽/Mвх23 ₽/Mвых
google

Google: Gemma 3 4B

Gemma 3 внедряет мультимодальность, поддерживая визуально-языковой ввод и текстовый вывод. Модель обрабатывает контекстное окно объемом до 128 000 токенов, понимает более 140 языков и предлагает улучшенные возможности в области математики, логических рассуждений и ведения диалога, включая поддержку структурированных ответов и вызов функций.

от Контекст 131K5 ₽/Mвх10 ₽/Mвых

Похожие модели внутри подборки

Быстрые связки для углубленного сравнения: по цене, контексту и поддерживаемым API-параметрам.

Близкие по контексту

Близкие по параметрам

FAQ

Что считается недорогой моделью в этом каталоге?

В этой подборке — модели с минимальной ценой входных токенов, отсортированные по возрастанию стоимости.

Можно ли использовать дешевые модели в продакшене?

Да, особенно для массовых и менее критичных задач; важно проверять качество на ваших данных.

Смежные подборки

Лучшие для задач

Новости по теме

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru