Alltokens

Недорогие LLM-модели с лучшим соотношением цена/качество

Если приоритет — экономичность, начинайте с этой выборки. Здесь модели с низкой стоимостью входа и приемлемым качеством для массовых сценариев.

Моделей в подборке

60

Средняя цена (вход)

0 ₽/M

Макс. контекст

2.0M

Модели

qwen

Qwen: Qwen3.6 Plus (Бесплатно)

РассужденияНовая
#11 в рейтинге

Qwen 3.6 Plus основан на гибридной архитектуре, сочетающей эффективное линейное внимание с разреженным маршрутизатором смеси экспертов, что обеспечивает высокую масштабируемость и производительность вывода. По сравнению с серией 3.5, модель демонстрирует значительный прирост в агентном кодировании, разработке фронтенда и общем рассуждении, а также улучшенный опыт "vibe coding". Модель отлично справляется с сложными задачами, такими как 3D-сцены, игры и решение проблем на уровне репозиториев, достигая 78.8 баллов на SWE-bench Verified. Это представляет собой существенный скачок как в чисто текстовых, так и в мультимодальных возможностях, показывая результаты на уровне ведущих современных моделей.

от Контекст 1.00MБесплатновхБесплатновых
perplexity

Perplexity: Embed V1 4B

pplx-embed-v1 -4B — это одна из передовых текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а 4B-параметрическая модель максимизирует качество поиска.

от Контекст 32KБесплатновхБесплатновых
perplexity

Perplexity: Embed V1 0.6B

pplx-embed-v1-0.6B — одна из современных текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а версия с 0.6B параметров предназначена для легковесной генерации встраиваемых представлений с низкой задержкой.

от Контекст 32KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron 3 Super (Бесплатно)

Рассуждения
#18 в рейтинге

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Мульти-средовое обучение с подкреплением в 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

от Контекст 262KБесплатновхБесплатновых
nvidia

NVIDIA: Llama Nemotron Embed VL 1B V2 (Бесплатно)

Модель встраивания Llama Nemotron Embed VL 1B V2 оптимизирована для мультимодального поиска в задачах ответов на вопросы. Модель способна преобразовывать в векторные представления документы в виде изображений, текста или их комбинации. Поиск документов осуществляется на основе текстового запроса пользователя. Модель поддерживает обработку изображений, содержащих текст, таблицы, диаграммы и инфографику. Примечание: при использовании бесплатного доступа все запросы и результаты логируются для улучшения модели и сопутствующих сервисов. Пожалуйста, не загружайте личную, конфиденциальную или иную чувствительную информацию. Данный доступ предназначен только для ознакомительного использования. Не используйте его для производственных или критически важных бизнес-систем.

от Контекст 131KБесплатновхБесплатновых
minimax

MiniMax: MiniMax M2.5 (Бесплатно)

Рассуждения

MiniMax-M2.5 — это современная языковая модель, разработанная для повышения продуктивности в реальных условиях. Обученная в разнообразных сложных цифровых рабочих средах, M2.5 расширяет кодировочные возможности M2.1, охватывая общий офисный функционал. Модель достигла высокого уровня владения созданием и управлением файлами Word, Excel и PowerPoint, переключением контекста между различными программными средами и работой в командах с агентами и людьми. M2.5 демонстрирует впечатляющие результаты: 80,2% на SWE-Bench Verified, 51,3% на Multi-SWE-Bench и 76,3% на BrowseComp. Кроме того, модель более эффективна в использовании токенов по сравнению с предыдущими поколениями, поскольку обучена оптимизировать свои действия и вывод через планирование.

от Контекст 197KБесплатновхБесплатновых
alltokens

Free Models Router

Рассуждения

Самый простой способ получить бесплатный доступ к нейросетям. alltokens/free — это роутер, который случайным образом выбирает бесплатные модели из доступных на платформе alltokens. Система интеллектуально фильтрует модели, поддерживающие необходимые для вашего запроса функции, такие как анализ изображений, вызов инструментов, структурированные ответы и другие возможности.

от Контекст 200KБесплатновхБесплатновых
stepfun

StepFun: Step 3.5 Flash (Бесплатно)

Рассуждения
#4 в рейтинге

Step 3.5 Flash — это самая мощная базовая модель с открытым исходным кодом от компании StepFun. Построенная на архитектуре разреженной смеси экспертов (MoE), она выборочно активирует только 11 миллиардов из 196 миллиардов параметров для каждого токена. Это модель с возможностями рассуждения, которая демонстрирует невероятную скорость работы даже при обработке длинных контекстов. На платформе alltokens вы можете получить доступ к ее возможностям для решения сложных задач.

от Контекст 256KБесплатновхБесплатновых
arcee-ai

Arcee AI: Trinity Large Preview (Бесплатно)

🥉 #3 в рейтинге

Trinity-Large-Preview — это передовая языковая модель с открытыми весами от компании Arcee, представляющая собой разреженную архитектуру смеси экспертов (MoE) на 400 миллиардов параметров. В процессе генерации на каждый токен активируется 13 миллиардов параметров благодаря системе маршрутизации 4 из 256 экспертов. Модель демонстрирует выдающиеся результаты в художественном письме, сторителлинге, ролевых играх, чат-сценариях и голосовых помощниках реального времени, превосходя в этих аспектах стандартные рассуждающие модели. Также Trinity-Large-Preview обладает улучшенными агентными способностями: она обучена эффективно работать в программных средах, управлять сложными цепочками инструментов и обрабатывать длинные промпты с большим количеством ограничений. Архитектура нативно поддерживает сверхдлинные контекстные окна до 512 000 токенов. В текущей версии API на alltokens доступен контекст объемом 128 000 токенов с использованием 8-битного квантования для оптимизации производительности. Trinity-Large-Preview воплощает философию проектирования Arcee, ориентированную на эффективность, предлагая готовую к промышленной эксплуатации модель с открытыми весами и гибкой лицензией для практического применения и экспериментов.

от Контекст 131KБесплатновхБесплатновых
liquid

LiquidAI: LFM2.5-1.2B-Thinking (Бесплатно)

Рассуждения

LFM2.5-1.2B-Thinking — это легкая модель, ориентированная на логические рассуждения и оптимизированная для работы агентов, извлечения данных и задач RAG, при этом она стабильно работает на периферийных устройствах. Модель поддерживает длинный контекст до 32 000 токенов и разработана для обеспечения высококачественных цепочек рассуждений при компактном размере в 1,2 миллиарда параметров. На alltokens модель доступна для интеграции в различные рабочие процессы.

от Контекст 33KБесплатновхБесплатновых
liquid

LiquidAI: LFM2.5-1.2B-Instruct (Бесплатно)

LFM2.5-1.2B-Instruct — это компактная высокопроизводительная модель, оптимизированная для выполнения инструкций и предназначенная для быстрой работы ИИ непосредственно на устройствах. При размере всего в 1,2 миллиарда параметров она обеспечивает высокое качество диалога, эффективный вывод на периферийных устройствах и широкую поддержку различных сред исполнения.

от Контекст 33KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron 3 Nano 30B A3B (Бесплатно)

Рассуждения

NVIDIA Nemotron 3 Nano 30B A3B — это компактная языковая модель с архитектурой Mixture of Experts (MoE), обладающая высочайшей вычислительной эффективностью и точностью. Она предназначена для разработки специализированных агентных систем искусственного интеллекта. Модель является полностью открытой: доступны веса, наборы данных и методики обучения. Это позволяет разработчикам легко настраивать, оптимизировать и развертывать решение на собственной инфраструктуре для обеспечения максимальной конфиденциальности и безопасности. Примечание: при использовании бесплатного доступа все запросы и ответы сохраняются для улучшения модели и сопутствующих сервисов. Пожалуйста, не передавайте персональную, конфиденциальную или иную конфиденциальную информацию. Данный доступ предназначен только для ознакомления. Не используйте его для производственных или критически важных бизнес-систем. На платформе alltokens вы можете протестировать возможности данной модели.

от Контекст 256KБесплатновхБесплатновых
alltokens

Body Builder (beta)

Преобразуйте ваши запросы на естественном языке в структурированные объекты запросов API alltokens. Опишите, что вы хотите реализовать с помощью моделей ИИ, и Body Builder сформирует соответствующие вызовы API. Пример: посчитай до 10, используя gemini и opus. Этот инструмент полезен для создания мультимодельных запросов, кастомных роутеров моделей или программной генерации вызовов API на основе человеческих описаний. УВЕДОМЛЕНИЕ О БЕТА-ТЕСТИРОВАНИИ: Body Builder находится на стадии бета-тестирования и в данный момент предоставляется бесплатно. Стоимость и функциональные возможности могут измениться в будущем.

от Контекст 128KБесплатновхБесплатновых
arcee-ai

Arcee AI: Trinity Mini (Бесплатно)

Удаляется 10 апреля
Рассуждения
#12 в рейтинге

Trinity Mini — это разреженная языковая модель на базе архитектуры смеси экспертов (MoE) с общим числом параметров 26 миллиардов, из которых 3 миллиарда активны. Модель включает 128 экспертов, 8 из которых задействуются для каждого токена. Разработана для эффективных рассуждений при работе с длинным контекстом до 131 000 токенов, обладает надежными возможностями вызова функций и поддерживает сложные многошаговые рабочие процессы агентов. Доступна на alltokens.

от Контекст 131KБесплатновхБесплатновых
thenlper

Thenlper: GTE-Base

Модель эмбеддингов gte-base преобразует английские предложения и абзацы в плотное векторное пространство размерностью 768. Она обеспечивает эффективное и качественное создание семантических эмбеддингов, оптимизированных для задач определения текстового сходства, семантического поиска и кластеризации.

от Контекст 512БесплатновхБесплатновых
thenlper

Thenlper: GTE-Large

Модель эмбеддингов gte-large преобразует английские предложения, абзацы и документы средней длины в 1024-мерное векторное пространство. Она обеспечивает высококачественные семантические эмбеддинги, оптимизированные для задач поиска информации, определения семантического сходства текстов, переранжирования и кластеризации. Модель обучена с использованием многоэтапного контрастивного обучения на обширном корпусе релевантных данных из различных областей, что гарантирует отличную производительность в универсальных сценариях использования эмбеддингов на alltokens.

от Контекст 512БесплатновхБесплатновых
intfloat

Intfloat: E5-Large-v2

Модель эмбеддингов e5-large-v2 преобразует английские предложения, абзацы и документы в плотное векторное пространство размерностью 1024. Она обеспечивает высокую точность семантических представлений, оптимизированных для задач поиска информации, семантического поиска, переранжирования и оценки сходства текстов. Модель доступна через API alltokens.

от Контекст 512БесплатновхБесплатновых
intfloat

Intfloat: E5-Base-v2

Модель эмбеддингов e5-base-v2 преобразует предложения и абзацы на английском языке в плотные векторы размерностью 768. Она создает эффективные и высококачественные семантические эмбеддинги, оптимизированные для таких задач, как семантический поиск, оценка сходства, поиск информации и кластеризация. Модель доступна через API alltokens.

от Контекст 512БесплатновхБесплатновых
intfloat

Intfloat: Multilingual-E5-Large

Модель эмбеддингов multilingual-e5-large преобразует предложения, абзацы и документы на более чем 90 языках в 1024-мерное векторное пространство. Она обеспечивает создание качественных семантических векторов, оптимизированных для многоязычного поиска, определения сходства текстов на разных языках и обработки крупномасштабных массивов данных через API alltokens.

от Контекст 512БесплатновхБесплатновых
sentence-transformers

Sentence Transformers: paraphrase-MiniLM-L6-v2

Модель эмбеддингов paraphrase-MiniLM-L6-v2 преобразует предложения и короткие абзацы в 384-мерное плотное векторное пространство. Она создает высококачественные семантические эмбеддинги, оптимизированные для обнаружения парафраза, оценки семантического сходства, кластеризации и задач легковесного поиска данных.

от Контекст 512БесплатновхБесплатновых
sentence-transformers

Sentence Transformers: all-MiniLM-L12-v2

Модель эмбеддингов all-MiniLM-L12-v2 преобразует предложения и короткие абзацы в 384-мерное плотное векторное пространство. Она создает эффективные и высококачественные семантические эмбеддинги, оптимизированные для таких задач, как семантический поиск, кластеризация и оценка сходства текстов.

от Контекст 512БесплатновхБесплатновых
baai

BAAI: bge-base-en-v1.5

Модель эмбеддингов bge-base-en-v1.5 преобразует английские предложения и абзацы в плотные векторы размерности 768, обеспечивая эффективные и высококачественные семантические представления. Модель оптимизирована для задач поиска, семантического анализа и сопоставления документов. Версия v1.5 отличается улучшенным распределением показателей сходства и более высокой производительностью поиска без необходимости дополнительной настройки.

от Контекст 512БесплатновхБесплатновых
sentence-transformers

Sentence Transformers: multi-qa-mpnet-base-dot-v1

Модель эмбеддингов multi-qa-mpnet-base-dot-v1 преобразует предложения и короткие абзацы в плотное векторное пространство размерностью 768. Она генерирует высококачественные семантические эмбеддинги, оптимизированные для поиска ответов на вопросы, семантического поиска и оценки сходства текстов в различных типах контента.

от Контекст 512БесплатновхБесплатновых
baai

BAAI: bge-large-en-v1.5

Модель эмбеддингов bge-large-en-v1.5 преобразует английские предложения, абзацы и документы в плотное векторное пространство размерностью 1024. Она обеспечивает высокоточное семантическое представление данных, оптимизированное для семантического поиска, поиска документов и решения прикладных задач обработки естественного языка на английском языке. Модель доступна через API alltokens.

от Контекст 512БесплатновхБесплатновых
baai

BAAI: bge-m3

Модель эмбеддингов bge-m3 преобразует предложения, абзацы и длинные документы в плотное векторное пространство размерностью 1024. Она обеспечивает высококачественные семантические эмбеддинги, оптимизированные для мультиязычного поиска, семантического анализа и работы с приложениями, требующими обработки большого контекста.

от Контекст 8KБесплатновхБесплатновых
sentence-transformers

Sentence Transformers: all-mpnet-base-v2

Модель эмбеддингов all-mpnet-base-v2 преобразует предложения и короткие абзацы в плотное векторное пространство размерности 768. Она обеспечивает высокую точность семантических представлений, которые отлично подходят для таких задач, как поиск информации, кластеризация, оценка сходства и ранжирование текстов.

от Контекст 512БесплатновхБесплатновых
sentence-transformers

Sentence Transformers: all-MiniLM-L6-v2

Модель эмбеддингов all-MiniLM-L6-v2 преобразует предложения и короткие абзацы в плотное векторное пространство размерностью 384. Это обеспечивает высококачественное семантическое представление данных, которое идеально подходит для таких задач, как поиск информации, кластеризация, оценка сходства и ранжирование текста. Модель доступна через API alltokens.

от Контекст 512БесплатновхБесплатновых
mistralai

Mistral: Mistral Embed 2312

Mistral Embed — это специализированная модель встраивания для текстовых данных, оптимизированная для семантического поиска и приложений RAG. Разработанная компанией Mistral AI в конце 2023 года, она генерирует векторы размерностью 1024, которые эффективно фиксируют семантические связи в тексте. На платформе alltokens модель доступна для интеграции в современные системы обработки естественного языка.

от Контекст 8KБесплатновхБесплатновых
google

Google: Gemini Embedding 001

gemini-embedding-001 предлагает передовой унифицированный опыт работы в различных областях, включая науку, юриспруденцию, финансы и программирование. Эта модель встраивания стабильно занимает лидирующие позиции в многоязычном рейтинге Massive Text Embedding Benchmark (MTEB) с момента ее экспериментального запуска в марте. На платформе alltokens вы можете получить доступ к этой технологии для решения своих задач.

от Контекст 20KБесплатновхБесплатновых
openai

OpenAI: Text Embedding Ada 002

text-embedding-ada-002 — это устаревшая модель текстовых эмбеддингов от OpenAI.

от Контекст 8KБесплатновхБесплатновых
mistralai

Mistral: Codestral Embed 2505

Mistral Codestral Embed специально разработана для работы с кодом. Она идеально подходит для эмбеддинга баз данных кода, репозиториев и обеспечения работы ИИ-ассистентов для программирования благодаря передовым технологиям поиска информации.

от Контекст 8KБесплатновхБесплатновых
openai

OpenAI: Text Embedding 3 Large

text-embedding-3-large — это самая мощная модель встраивания от OpenAI, предназначенная для работы как с английским, так и с другими языками. Встраивания (эмбеддинги) представляют собой числовое выражение текста, которое позволяет оценивать степень смысловой близости между различными фрагментами данных. Эти векторы эффективны для решения задач поиска, кластеризации, построения рекомендательных систем, обнаружения аномалий и классификации текстов.

от Контекст 8KБесплатновхБесплатновых
openai

OpenAI: Text Embedding 3 Small

text-embedding-3-small — это улучшенная и более производительная версия модели встраивания ada от OpenAI. Встраивания (embeddings) представляют собой числовое выражение текста, которое позволяет измерять степень смысловой близости между различными фрагментами данных. Данная модель эффективна для решения задач поиска, кластеризации, формирования рекомендаций, обнаружения аномалий и классификации текста. На платформе alltokens вы можете использовать эту модель для создания высокоточных векторных представлений.

от Контекст 8KБесплатновхБесплатновых
qwen

Qwen: Qwen3 Embedding 8B

Серия моделей Qwen3 Embedding — это новейшая разработка в семействе Qwen, специально созданная для задач встраивания текста и ранжирования. Данная серия унаследовала исключительные мультиязычные возможности, навыки понимания длинных текстов и логического вывода от своей базовой модели. Серия Qwen3 Embedding демонстрирует значительные успехи в различных задачах обработки текста, включая поиск текстовой информации, поиск кода, классификацию, кластеризацию и поиск параллельных корпусов текстов.

от Контекст 32KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron Nano 12B 2 VL (Бесплатно)

Рассуждения

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 2 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает в себе точность трансформеров с эффективным моделированием последовательностей Mamba. Это обеспечивает значительно более высокую пропускную способность и низкую задержку при работе. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, отобранных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки распространяются под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

от Контекст 128KБесплатновхБесплатновых
qwen

Qwen: Qwen3 Embedding 4B

Серия моделей Qwen3 Embedding — это новейшая разработка в семействе Qwen, специально созданная для задач встраивания текста и ранжирования. Данная серия унаследовала исключительные мультиязычные возможности, навыки понимания длинных текстов и логического вывода от своей базовой модели. Серия Qwen3 Embedding демонстрирует значительные успехи в различных задачах обработки текстов, включая поиск текстовой информации, поиск кода, классификацию, кластеризацию и поиск параллельных корпусов данных. На платформе alltokens эти модели обеспечивают высокую точность и производительность для современных ИИ-решений.

от Контекст 33KБесплатновхБесплатновых
qwen

Qwen: Qwen3 Next 80B A3B Instruct (Бесплатно)

Qwen3-Next-80B-A3B-Instruct — это оптимизированная для инструкций чат-модель серии Qwen3-Next, разработанная для получения быстрых и стабильных ответов без вывода цепочки рассуждений. Модель ориентирована на решение сложных задач в области логического вывода, генерации кода, ответов на вопросы и многоязычного использования, сохраняя при этом высокую точность следования формату и инструкциям. По сравнению с предыдущими вариантами Qwen3, данная версия фокусируется на повышенной пропускной способности и стабильности при работе с очень длинными входными данными и многоходовыми диалогами. Это делает ее подходящей для систем RAG, использования внешних инструментов и агентных рабочих процессов, где требуются последовательные финальные ответы, а не видимый процесс размышления. Модель использует эффективные методы обучения и декодирования для улучшения использования параметров и скорости инференса. Она прошла проверку на широком наборе публичных тестов, где достигла или приблизилась к показателям более крупных систем Qwen3, превзойдя при этом предыдущие базовые модели среднего размера. Qwen3-Next-80B-A3B-Instruct лучше всего подходит на роль универсального ассистента, помощника в написании кода и инструмента для решения задач с длинным контекстом в рабочих средах, где приоритет отдается детерминированным ответам и точному следованию инструкциям. Все возможности модели доступны через API alltokens.

от Контекст 262KБесплатновхБесплатновых
nvidia

NVIDIA: Nemotron Nano 9B V2 (Бесплатно)

Рассуждения

NVIDIA-Nemotron-Nano-9B-v2 — это большая языковая модель, разработанная NVIDIA с нуля. Она спроектирована как универсальное решение для задач, требующих и не требующих логических рассуждений. Модель обрабатывает запросы пользователей, сначала формируя цепочку рассуждений, а затем выдавая итоговый ответ. Возможности логического вывода модели можно контролировать с помощью системного промпта. Если пользователю требуется получить прямой ответ без промежуточных этапов рассуждения, модель можно настроить соответствующим образом через alltokens.

от Контекст 128KБесплатновхБесплатновых
openai

OpenAI: gpt-oss-120b (Бесплатно)

Рассуждения

gpt-oss-120b — это языковая модель с открытыми весами на базе архитектуры Mixture-of-Experts (MoE), содержащая 117 миллиардов параметров и разработанная OpenAI для задач, требующих глубоких рассуждений, работы агентов и общего промышленного использования. Модель активирует 5,1 миллиарда параметров при каждом проходе и оптимизирована для работы на одном графическом процессоре H100 с использованием нативного квантования MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей (chain-of-thought) и встроенные инструменты, включая вызов функций, поиск в сети и генерацию структурированных данных. Доступ к модели осуществляется через API alltokens.

от Контекст 131KБесплатновхБесплатновых
openai

OpenAI: gpt-oss-20b (Бесплатно)

Рассуждения

gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на каждый проход, что оптимизировано для снижения задержек при инференсе и возможности развертывания на потребительском оборудовании или одиночных графических процессорах. Модель обучена в формате ответов Harmony и поддерживает настройку уровней рассуждения, тонкую настройку, а также агентские возможности, включая вызов функций, использование инструментов и структурированный вывод. Доступ к модели осуществляется через API alltokens.

от Контекст 131KБесплатновхБесплатновых
z-ai

Z.ai: GLM 4.5 Air (Бесплатно)

Рассуждения
#6 в рейтинге

GLM-4.5-Air — это облегченная версия флагманского семейства моделей, специально разработанная для работы в качестве ИИ-агентов. Как и основная модель GLM-4.5, она использует архитектуру Mixture-of-Experts (MoE), но обладает более компактным количеством параметров. GLM-4.5-Air поддерживает гибридные режимы инференса: режим мышления для сложного логического вывода и использования инструментов, а также обычный режим для взаимодействия в реальном времени. Пользователи могут управлять поведением модели с помощью логического параметра reasoning enabled через API alltokens.

от Контекст 131KБесплатновхБесплатновых
qwen

Qwen: Qwen3 Coder 480B A35B (Бесплатно)

Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на базе архитектуры Mixture-of-Experts (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждение в рамках длинного контекста при работе с репозиториями. Модель содержит в общей сложности 480 миллиардов параметров, из которых 35 миллиардов активны при каждом проходе (используются 8 из 160 экспертов). Стоимость использования через API alltokens зависит от длины контекста. Если объем входного запроса превышает 128 000 токенов, применяется повышенный тариф.

от Контекст 262KБесплатновхБесплатновых
cognitivecomputations

Venice: Uncensored (Бесплатно)

Venice Uncensored Dolphin Mistral 24B Venice Edition — это специализированная версия модели Mistral-Small-24B-Instruct-2501, разработанная dphn.ai совместно с Venice.ai. Данная модель спроектирована как «нецензурированная» LLM с инструктивным обучением, что обеспечивает пользователю полный контроль над мировоззрением, системными подсказками и поведением ИИ. Предназначенная для продвинутых сценариев использования без ограничений, Venice Uncensored делает упор на управляемость и прозрачность ответов, исключая стандартные уровни безопасности и выравнивания, которые обычно присутствуют в массовых моделях-ассистентах. Доступ к модели осуществляется через API alltokens.

от Контекст 33KБесплатновхБесплатновых
google

Google: Gemma 3n 2B (Бесплатно)

Gemma 3n E2B IT — это мультимодальная модель с инструктивной настройкой, разработанная Google DeepMind. Она спроектирована для эффективной работы с фактическим размером в 2 миллиарда параметров при использовании архитектуры на 6 миллиардов параметров. Благодаря архитектуре MatFormer модель поддерживает вложенные подмодели и модульную композицию через фреймворк Mix-and-Match. Модели серии Gemma 3n оптимизированы для развертывания в условиях ограниченных ресурсов, предлагают контекстное окно объемом 32K токенов и демонстрируют высокие показатели мультиязычности и логического вывода в стандартных тестах. Данная версия обучена на разнообразном корпусе данных, включающем программный код, математические вычисления, веб-контент и мультимодальную информацию.

от Контекст 8KБесплатновхБесплатновых
google

Google: Gemma 3n 4B (Бесплатно)

Gemma 3n E4B-it оптимизирована для эффективной работы на мобильных и маломощных устройствах, таких как смартфоны, ноутбуки и планшеты. Модель поддерживает мультимодальные входные данные, включая текст, визуальную информацию и аудио, что позволяет выполнять широкий спектр задач: генерацию текста, распознавание речи, перевод и анализ изображений. Благодаря внедрению таких инноваций, как кэширование эмбеддингов на каждом слое (PLE) и архитектура MatFormer, Gemma 3n динамически управляет использованием памяти и вычислительной нагрузкой, выборочно активируя параметры модели, что значительно снижает требования к ресурсам во время работы. Модель поддерживает более 140 языков и обладает гибким контекстным окном в 32K токенов. Gemma 3n способна выборочно загружать параметры, оптимизируя потребление памяти и вычислительную эффективность в зависимости от конкретной задачи или возможностей устройства. Это делает ее отличным решением для приложений, ориентированных на конфиденциальность, работу в автономном режиме и локальное использование ИИ на устройствах через alltokens.

от Контекст 8KБесплатновхБесплатновых
google

Google: Gemma 3 4B (Бесплатно)

Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и демонстрирует улучшенные возможности в математике, логических рассуждениях и ведении диалога. Также реализована поддержка структурированных ответов и вызова функций через API alltokens.

от Контекст 33KБесплатновхБесплатновых
google

Google: Gemma 3 12B (Бесплатно)

Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в области математики, логических рассуждений и ведения диалога, включая поддержку структурированных ответов и вызов функций. Gemma 3 12B является второй по величине моделью в семействе Gemma 3 после версии 27B.

от Контекст 33KБесплатновхБесплатновых
google

Google: Gemma 3 27B (Бесплатно)

Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и демонстрирует улучшенные возможности в математике, логических рассуждениях и ведении диалога, включая поддержку структурированных ответов и вызов функций. Gemma 3 27B — это новейшая открытая модель от Google, ставшая преемницей Gemma 2 и доступная на alltokens.

от Контекст 131KБесплатновхБесплатновых
meta-llama

Meta: Llama 3.3 70B Instruct (Бесплатно)

Мультиязычная большая языковая модель Meta Llama 3.3 — это предварительно обученная и оптимизированная для инструкций генеративная модель объемом 70 миллиардов параметров (ввод и вывод текста). Модель Llama 3.3, настроенная для работы с текстовыми инструкциями, оптимизирована для сценариев многоязычного диалога и превосходит многие доступные открытые и закрытые чат-модели в популярных отраслевых тестах. Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Доступ к модели предоставляется через API alltokens.

от Контекст 66KБесплатновхБесплатновых
meta-llama

Meta: Llama 3.2 3B Instruct (Бесплатно)

Llama 3.2 3B — это мультиязычная большая языковая модель с 3 миллиардами параметров, оптимизированная для сложных задач обработки естественного языка, таких как ведение диалога, логический вывод и суммаризация текстов. Модель построена на современной архитектуре transformer и поддерживает восемь языков, включая английский, испанский и хинди, с возможностью адаптации под другие языковые группы. Обученная на массиве из 9 триллионов токенов, Llama 3.2 3B демонстрирует отличные результаты в следовании инструкциям, сложном логическом мышлении и использовании внешних инструментов. Сбалансированная производительность делает ее идеальным решением для приложений, требующих точности и эффективности генерации текста в мультиязычных средах. Использование данной модели на alltokens регулируется политикой допустимого использования Meta.

от Контекст 131KБесплатновхБесплатновых
nousresearch

Nous: Hermes 3 405B Instruct (Бесплатно)

Hermes 3 — это универсальная языковая модель, получившая множество улучшений по сравнению с Hermes 2, включая продвинутые возможности автономных агентов, значительно улучшенное ролевое взаимодействие, логическое мышление, ведение многоходовых диалогов, связность при работе с длинным контекстом и общую оптимизацию всех характеристик. Hermes 3 405B представляет собой полнопараметрическую тонкую настройку базовой модели Llama-3.1 405B флагманского уровня. Основное внимание в ней уделено адаптации ИИ под нужды пользователя, предоставлению мощных инструментов управления и контроля конечному потребителю. Серия Hermes 3 расширяет возможности Hermes 2, предлагая более надежный вызов функций, работу со структурированными данными, навыки универсального помощника и улучшенную генерацию программного кода. Hermes 3 сопоставима, а в некоторых аспектах превосходит модели Llama-3.1 Instruct по общим возможностям, обладая при этом уникальным балансом сильных и слабых сторон. На платформе alltokens вы можете получить доступ к этой модели через API.

от Контекст 131KБесплатновхБесплатновых
alltokens

Auto Router

Рассуждения

Ваш запрос будет обработан мета-моделью и направлен в одну из десятков доступных моделей для достижения наилучшего результата. Чтобы узнать, какая именно модель была использована, проверьте историю активности или атрибут model в ответе API. Стоимость запроса соответствует тарифу выбранной модели. Вы можете настроить список моделей для маршрутизации в документации. Запросы направляются в следующие модели: - anthropic/claude-haiku-4.5 - anthropic/claude-opus-4.6 - anthropic/claude-sonnet-4.5 - deepseek/deepseek-r1 - google/gemini-2.5-flash-lite - google/gemini-3-flash-preview - google/gemini-3-pro-preview - meta-llama/llama-3.3-70b-instruct - mistralai/codestral-2508 - mistralai/mistral-large - mistralai/mistral-medium-3.1 - mistralai/mistral-small-3.2-24b-instruct-2506 - moonshotai/kimi-k2-thinking - moonshotai/kimi-k2.5 - openai/gpt-5 - openai/gpt-5-mini - openai/gpt-5-nano - openai/gpt-5.1 - openai/gpt-5.2 - openai/gpt-5.2-pro - openai/gpt-oss-120b - perplexity/sonar - qwen/qwen3-235b-a22b - x-ai/grok-3 - x-ai/grok-3-mini - x-ai/grok-4

от Контекст 2.00MБесплатновхБесплатновых
ibm-granite

IBM: Granite 4.0 Micro

Granite-4.0-H-Micro — это модель с 3 миллиардами параметров из семейства Granite 4. Данные модели являются последними в серии релизов от IBM. Они специально оптимизированы для работы с длинным контекстом и вызова внешних инструментов.

от Контекст 131K3 ₽/Mвх15 ₽/Mвых
google

Google: Gemma 3n 4B

Gemma 3n E4B-it оптимизирована для эффективной работы на мобильных и маломощных устройствах, таких как смартфоны, ноутбуки и планшеты. Модель поддерживает мультимодальные входные данные, включая текст, изображения и аудио, что позволяет выполнять широкий спектр задач: генерацию текста, распознавание речи, перевод и анализ изображений. Благодаря внедрению таких инноваций, как кэширование эмбеддингов на каждом слое (PLE) и архитектура MatFormer, Gemma 3n динамически управляет использованием памяти и вычислительной нагрузкой, выборочно активируя параметры модели, что значительно снижает требования к ресурсам во время работы. Модель поддерживает более 140 языков и обладает гибким контекстным окном в 32 000 токенов. Gemma 3n способна выборочно загружать параметры, оптимизируя потребление памяти и вычислительную эффективность в зависимости от конкретной задачи или возможностей устройства. Это делает ее отличным решением для приложений, ориентированных на конфиденциальность, работу в автономном режиме и локальное использование ИИ на устройствах через alltokens.

от Контекст 33K3 ₽/Mвх6 ₽/Mвых
meta-llama

Llama Guard 3 8B

Llama Guard 3 — это предварительно обученная модель на базе Llama-3.1-8B, доработанная для классификации безопасности контента. Как и предыдущие версии, она может использоваться для анализа как входящих запросов к языковым моделям, так и их ответов. Модель работает по принципу LLM: она генерирует текст, указывающий, является ли запрос или ответ безопасным или небезопасным. В случае обнаружения нарушений модель также перечисляет категории контента, которые были нарушены. Llama Guard 3 настроена для защиты от рисков согласно стандартизированной таксономии MLCommons и оптимизирована для поддержки возможностей Llama 3.1. В частности, она обеспечивает модерацию контента на 8 языках и адаптирована для обеспечения безопасности при использовании инструментов поиска и интерпретатора кода. На alltokens модель доступна для интеграции в системы фильтрации трафика.

от Контекст 131K3 ₽/Mвх9 ₽/Mвых
meta-llama

Meta: Llama 3.1 8B Instruct

Новейшая линейка моделей Meta Llama 3.1 представлена в различных конфигурациях. Данная версия 8B с дообучением для следования инструкциям отличается высокой скоростью и эффективностью. В ходе экспертных оценок модель продемонстрировала высокие результаты, сопоставимые с ведущими проприетарными моделями. Использование данной модели на alltokens регулируется политикой допустимого использования Meta.

от Контекст 16K3 ₽/Mвх7 ₽/Mвых
mistralai

Mistral: Mistral Nemo

#20 в рейтинге

Модель с 12 миллиардами параметров и контекстным окном в 128 000 токенов, разработанная Mistral в сотрудничестве с NVIDIA. Модель является мультиязычной и поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский языки и хинди. Она поддерживает вызов функций (function calling) и распространяется под лицензией Apache 2.0.

от Контекст 131K3 ₽/Mвх6 ₽/Mвых
meta-llama

Meta: Llama 3.2 1B Instruct

Llama 3.2 1B — это языковая модель с 1 миллиардом параметров, ориентированная на эффективное выполнение задач обработки естественного языка, таких как суммаризация, ведение диалогов и многоязычный анализ текста. Компактный размер позволяет модели эффективно работать в средах с ограниченными ресурсами, сохраняя при этом высокую производительность. Поддерживая восемь основных языков с возможностью дообучения на другие, Llama 3.2 1B идеально подходит для компаний и разработчиков, которым требуются легкие, но мощные ИИ-решения. Модель способна работать в различных многоязычных сценариях без высоких требований к вычислительным мощностям, характерных для более крупных моделей. Использование данной модели регулируется политикой допустимого использования Meta. Доступ к модели осуществляется через alltokens.

от Контекст 60K4 ₽/Mвх27 ₽/Mвых
liquid

LiquidAI: LFM2-24B-A2B

LFM2-24B-A2B — самая крупная модель в семействе гибридных архитектур LFM2, разработанная для эффективного развертывания на локальных устройствах. Она построена по принципу смеси экспертов (Mixture-of-Experts) с общим объемом 24 миллиарда параметров, из которых для обработки каждого токена активируются только 2 миллиарда. Это обеспечивает высокое качество генерации при сохранении низких затрат на инференс. Модель помещается в 32 ГБ оперативной памяти, что позволяет запускать ее на потребительских ноутбуках и настольных компьютерах без потери производительности. На alltokens вы можете получить доступ к этой модели через API.

от Контекст 33K5 ₽/Mвх17 ₽/Mвых
openai

OpenAI: gpt-oss-20b

Рассуждения

gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на каждый проход, что оптимизирует ее для работы с низкой задержкой и позволяет развертывать на потребительском оборудовании или одиночных графических процессорах. Модель обучена в формате ответов Harmony и поддерживает настройку уровней рассуждения, дообучение, а также агентские возможности, включая вызов функций, использование инструментов и структурированный вывод данных. На платформе alltokens модель доступна для интеграции через API.

от Контекст 131K5 ₽/Mвх15 ₽/Mвых

Похожие модели внутри подборки

Быстрые связки для углубленного сравнения: по цене, контексту и поддерживаемым API-параметрам.

Близкие по контексту

Близкие по параметрам

FAQ

Что считается недорогой моделью в этом каталоге?

В этой подборке — модели с минимальной ценой входных токенов, отсортированные по возрастанию стоимости.

Можно ли использовать дешевые модели в продакшене?

Да, особенно для массовых и менее критичных задач; важно проверять качество на ваших данных.

Смежные подборки

Лучшие для задач

Новости по теме

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.