Недорогие LLM-модели с лучшим соотношением цена/качество

CoBuddy — это модель генерации кода от Baidu, оптимизированная для задач программирования и рабочих процессов AI-агентов. Она обеспечивает высокую пропускную способность при выводе и низкую задержку от начала до конца, с нативной поддержкой инструментов.

от Контекст 1.05MБесплатновхБесплатновых

Owl Alpha

Owl Alpha — это высокопроизводительная базовая модель, разработанная для агентных задач. Она изначально поддерживает использование инструментов и работу с длинным контекстом, демонстрируя высокую эффективность в генерации кода, автоматизации рабочих процессов и выполнении сложных инструкций.

NVIDIA: Nemotron 3 Nano Omni (Бесплатно)

от Контекст 256KБесплатновхБесплатновых

NVIDIA Nemotron™ 3 Nano Omni — это открытая мультимодальная модель с 30 миллиардами параметров, разработанная для работы в качестве подсистемы восприятия и контекста в корпоративных агентных системах. Модель принимает текст, изображения, видео и другие виды данных.

Poolside: Laguna XS.2 (Бесплатно)

Laguna XS.2 — модель второго поколения в классе XS от Poolside, их серии эффективных агентов для кодирования. Она сочетает в себе возможности вызова инструментов и логического мышления при компактных размерах, предлагая...

Poolside: Laguna M.1 (Бесплатно)

#5 в рейтинге

Laguna M.1 — это флагманская модель агента для программирования от Poolside, оптимизированная для выполнения сложных задач в области разработки программного обеспечения. Созданная для агентных рабочих процессов программирования, модель поддерживает вызов инструментов и логическое рассуждение, с контекстом в 128 тысяч токенов.

DeepSeek: DeepSeek V4 Flash (Бесплатно)

от Контекст 1.05MБесплатновхБесплатновых

DeepSeek V4 Flash — это оптимизированная по эффективности модель Mixture-of-Experts от DeepSeek с общим числом параметров 284 миллиарда и 13 миллиардами активируемых параметров, поддерживающая контекстное окно в 1 миллион токенов. Модель разработана для быстрого вывода и...

Pareto Code Router

Pareto Router — это способ, с помощью которого alltokens всегда выбирает для вас мощную модель для кодирования в соответствии с вашими потребностями, не привязываясь к конкретной модели. Вы выражаете единственное предпочтение `min_coding_score`...

от Контекст 2.00MБесплатновхБесплатновых

Google: Gemma 4 26B A4B (Бесплатно)

Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференции активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели.

Google: Gemma 4 31B (Бесплатно)

Gemma 4 31B Instruct - это мультимодальная плотная модель Google DeepMind объемом 30,7 миллиарда параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенными функциями...

Arcee AI: Trinity Large Thinking (Бесплатно)

Trinity Large Thinking — это мощная модель рассуждения с открытым исходным кодом от команды Arcee AI. Она демонстрирует высокую производительность в тестах PinchBench, агентных задачах и задачах, требующих логического мышления.

NVIDIA: Nemotron 3 Super (Бесплатно)

от Контекст 1.00MБесплатновхБесплатновых

#18 в рейтинге

NVIDIA Nemotron 3 Super — это открытая гибридная модель MoE с 120 миллиардами параметров, активирующая всего 12 миллиардов для максимальной вычислительной эффективности и точности в сложных многоагентных приложениях. Основанная на гибридной архитектуре Mamba-Transformer Mixture-of-Experts с много-токеновым предсказанием (MTP), она обеспечивает более чем 50% прирост генерации токенов по сравнению с ведущими открытыми моделями. Модель оснащена контекстным окном в 1 миллион токенов для долгосрочной когерентности агентов, междокументного рассуждения и планирования многошаговых задач. Latent MoE позволяет вызывать 4 эксперта за стоимость одного, улучшая интеллект и обобщение. Мульти-средовое обучение с подкреплением в 10+ средах обеспечивает лидирующую точность на бенчмарках, включая AIME 2025, TerminalBench и SWE-Bench Verified. Полностью открытая с весами, наборами данных и рецептами под лицензией NVIDIA Open, Nemotron 3 Super позволяет легко настраивать и безопасно развертывать модель в любом месте — от рабочей станции до облака.

NVIDIA: Llama Nemotron Embed VL 1B V2 (Бесплатно)

Модель встраивания Llama Nemotron Embed VL 1B V2 оптимизирована для мультимодального поиска в задачах ответов на вопросы. Модель способна преобразовывать в векторные представления документы в виде изображений, текста или их комбинации. Поиск документов осуществляется на основе текстового запроса пользователя. Модель поддерживает обработку изображений, содержащих текст, таблицы, диаграммы и инфографику. Примечание: при использовании бесплатного доступа все запросы и результаты логируются для улучшения модели и сопутствующих сервисов. Пожалуйста, не загружайте личную, конфиденциальную или иную чувствительную информацию. Данный доступ предназначен только для ознакомительного использования. Не используйте его для производственных или критически важных бизнес-систем.

от Контекст 131KБесплатновх—вых

MiniMax: MiniMax M2.5 (Бесплатно)

от Контекст 205KБесплатновхБесплатновых

MiniMax-M2.5 — это современная языковая модель, разработанная для повышения продуктивности в реальных условиях. Обученная в разнообразных сложных цифровых рабочих средах, M2.5 расширяет кодировочные возможности M2.1, охватывая общий офисный функционал. Модель достигла высокого уровня владения созданием и управлением файлами Word, Excel и PowerPoint, переключением контекста между различными программными средами и работой в командах с агентами и людьми. M2.5 демонстрирует впечатляющие результаты: 80,2% на SWE-Bench Verified, 51,3% на Multi-SWE-Bench и 76,3% на BrowseComp. Кроме того, модель более эффективна в использовании токенов по сравнению с предыдущими поколениями, поскольку обучена оптимизировать свои действия и вывод через планирование.

Free Models Router

от Контекст 200KБесплатновхБесплатновых

Самый простой способ получить бесплатный доступ к нейросетям. alltokens/free — это роутер, который случайным образом выбирает бесплатные модели из доступных на платформе alltokens. Система интеллектуально фильтрует модели, поддерживающие необходимые для вашего запроса функции, такие как анализ изображений, вызов инструментов, структурированные ответы и другие возможности.

LiquidAI: LFM2.5-1.2B-Thinking (Бесплатно)

от Контекст 33KБесплатновхБесплатновых

LFM2.5-1.2B-Thinking — это легкая модель, ориентированная на логические рассуждения и оптимизированная для работы агентов, извлечения данных и задач RAG, при этом она стабильно работает на периферийных устройствах. Модель поддерживает длинный контекст до 32 000 токенов и разработана для обеспечения высококачественных цепочек рассуждений при компактном размере в 1,2 миллиарда параметров. На alltokens модель доступна для интеграции в различные рабочие процессы.

LiquidAI: LFM2.5-1.2B-Instruct (Бесплатно)

LFM2.5-1.2B-Instruct — это компактная высокопроизводительная модель, оптимизированная для выполнения инструкций и предназначенная для быстрой работы ИИ непосредственно на устройствах. При размере всего в 1,2 миллиарда параметров она обеспечивает высокое качество диалога, эффективный вывод на периферийных устройствах и широкую поддержку различных сред исполнения.

от Контекст 33KБесплатновхБесплатновых

NVIDIA: Nemotron 3 Nano 30B A3B (Бесплатно)

от Контекст 256KБесплатновхБесплатновых

NVIDIA Nemotron 3 Nano 30B A3B — это компактная языковая модель с архитектурой Mixture of Experts (MoE), обладающая высочайшей вычислительной эффективностью и точностью. Она предназначена для разработки специализированных агентных систем искусственного интеллекта. Модель является полностью открытой: доступны веса, наборы данных и методики обучения. Это позволяет разработчикам легко настраивать, оптимизировать и развертывать решение на собственной инфраструктуре для обеспечения максимальной конфиденциальности и безопасности. Примечание: при использовании бесплатного доступа все запросы и ответы сохраняются для улучшения модели и сопутствующих сервисов. Пожалуйста, не передавайте персональную, конфиденциальную или иную конфиденциальную информацию. Данный доступ предназначен только для ознакомления. Не используйте его для производственных или критически важных бизнес-систем. На платформе alltokens вы можете протестировать возможности данной модели.

Body Builder (beta)

Преобразуйте ваши запросы на естественном языке в структурированные объекты запросов API alltokens. Опишите, что вы хотите реализовать с помощью моделей ИИ, и Body Builder сформирует соответствующие вызовы API. Пример: посчитай до 10, используя gemini и opus. Этот инструмент полезен для создания мультимодельных запросов, кастомных роутеров моделей или программной генерации вызовов API на основе человеческих описаний. УВЕДОМЛЕНИЕ О БЕТА-ТЕСТИРОВАНИИ: Body Builder находится на стадии бета-тестирования и в данный момент предоставляется бесплатно. Стоимость и функциональные возможности могут измениться в будущем.

от Контекст 128KБесплатновхБесплатновых

NVIDIA: Nemotron Nano 12B 2 VL (Бесплатно)

от Контекст 128KБесплатновхБесплатновых

NVIDIA Nemotron Nano 2 VL — это открытая мультимодальная модель с 2 миллиардами параметров, предназначенная для анализа видео и интеллектуальной обработки документов. В ней реализована гибридная архитектура Transformer-Mamba, которая сочетает в себе точность трансформеров с эффективным моделированием последовательностей Mamba. Это обеспечивает значительно более высокую пропускную способность и низкую задержку при работе. Модель поддерживает ввод текста и многостраничных документов с изображениями, генерируя ответы на естественном языке. Она обучена на высококачественных синтетических наборах данных, отобранных NVIDIA и оптимизированных для оптического распознавания символов (OCR), анализа графиков и мультимодального понимания. Nemotron Nano 2 VL демонстрирует ведущие результаты в тесте OCRBench v2 и набирает в среднем около 74 баллов в таких бенчмарках, как MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA и Video-MME, превосходя предыдущие открытые мультимодальные модели. Благодаря технологии эффективной выборки видео (EVS) модель способна обрабатывать длинные видеоролики при снижении затрат на инференс. Открытые веса, данные для обучения и рецепты тонкой настройки распространяются под разрешительной лицензией NVIDIA. Развертывание модели поддерживается через NeMo, NIM и основные среды исполнения для инференса на alltokens.

Qwen: Qwen3 Next 80B A3B Instruct (Бесплатно)

Qwen3-Next-80B-A3B-Instruct — это оптимизированная для инструкций чат-модель серии Qwen3-Next, разработанная для получения быстрых и стабильных ответов без вывода цепочки рассуждений. Модель ориентирована на решение сложных задач в области логического вывода, генерации кода, ответов на вопросы и многоязычного использования, сохраняя при этом высокую точность следования формату и инструкциям. По сравнению с предыдущими вариантами Qwen3, данная версия фокусируется на повышенной пропускной способности и стабильности при работе с очень длинными входными данными и многоходовыми диалогами. Это делает ее подходящей для систем RAG, использования внешних инструментов и агентных рабочих процессов, где требуются последовательные финальные ответы, а не видимый процесс размышления. Модель использует эффективные методы обучения и декодирования для улучшения использования параметров и скорости инференса. Она прошла проверку на широком наборе публичных тестов, где достигла или приблизилась к показателям более крупных систем Qwen3, превзойдя при этом предыдущие базовые модели среднего размера. Qwen3-Next-80B-A3B-Instruct лучше всего подходит на роль универсального ассистента, помощника в написании кода и инструмента для решения задач с длинным контекстом в рабочих средах, где приоритет отдается детерминированным ответам и точному следованию инструкциям. Все возможности модели доступны через API alltokens.

NVIDIA: Nemotron Nano 9B V2 (Бесплатно)

от Контекст 128KБесплатновхБесплатновых

NVIDIA-Nemotron-Nano-9B-v2 — это большая языковая модель, разработанная NVIDIA с нуля. Она спроектирована как универсальное решение для задач, требующих и не требующих логических рассуждений. Модель обрабатывает запросы пользователей, сначала формируя цепочку рассуждений, а затем выдавая итоговый ответ. Возможности логического вывода модели можно контролировать с помощью системного промпта. Если пользователю требуется получить прямой ответ без промежуточных этапов рассуждения, модель можно настроить соответствующим образом через alltokens.

OpenAI: gpt-oss-120b (Бесплатно)

#17 в рейтинге

gpt-oss-120b — это языковая модель с открытыми весами на базе архитектуры Mixture-of-Experts (MoE), содержащая 117 миллиардов параметров и разработанная OpenAI для задач, требующих глубоких рассуждений, работы агентов и общего промышленного использования. Модель активирует 5,1 миллиарда параметров при каждом проходе и оптимизирована для работы на одном графическом процессоре H100 с использованием нативного квантования MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке мыслей (chain-of-thought) и встроенные инструменты, включая вызов функций, поиск в сети и генерацию структурированных данных. Доступ к модели осуществляется через API alltokens.

OpenAI: gpt-oss-20b (Бесплатно)

gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на каждый проход, что оптимизировано для снижения задержек при инференсе и возможности развертывания на потребительском оборудовании или одиночных графических процессорах. Модель обучена в формате ответов Harmony и поддерживает настройку уровней рассуждения, тонкую настройку, а также агентские возможности, включая вызов функций, использование инструментов и структурированный вывод. Доступ к модели осуществляется через API alltokens.

Z.ai: GLM 4.5 Air (Бесплатно)

#7 в рейтинге

GLM-4.5-Air — это облегченная версия флагманского семейства моделей, специально разработанная для работы в качестве ИИ-агентов. Как и основная модель GLM-4.5, она использует архитектуру Mixture-of-Experts (MoE), но обладает более компактным количеством параметров. GLM-4.5-Air поддерживает гибридные режимы инференса: режим мышления для сложного логического вывода и использования инструментов, а также обычный режим для взаимодействия в реальном времени. Пользователи могут управлять поведением модели с помощью логического параметра reasoning enabled через API alltokens.

от Контекст 1.05MБесплатновхБесплатновых

Qwen: Qwen3 Coder 480B A35B (Бесплатно)

Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода на базе архитектуры Mixture-of-Experts (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждение в рамках длинного контекста при работе с репозиториями. Модель содержит в общей сложности 480 миллиардов параметров, из которых 35 миллиардов активны при каждом проходе (используются 8 из 160 экспертов). Стоимость использования через API alltokens зависит от длины контекста. Если объем входного запроса превышает 128 000 токенов, применяется повышенный тариф.

Venice: Uncensored (Бесплатно)

Venice Uncensored Dolphin Mistral 24B Venice Edition — это специализированная версия модели Mistral-Small-24B-Instruct-2501, разработанная dphn.ai совместно с Venice.ai. Данная модель спроектирована как «нецензурированная» LLM с инструктивным обучением, что обеспечивает пользователю полный контроль над мировоззрением, системными подсказками и поведением ИИ. Предназначенная для продвинутых сценариев использования без ограничений, Venice Uncensored делает упор на управляемость и прозрачность ответов, исключая стандартные уровни безопасности и выравнивания, которые обычно присутствуют в массовых моделях-ассистентах. Доступ к модели осуществляется через API alltokens.

от Контекст 33KБесплатновхБесплатновых

Meta: Llama 3.3 70B Instruct (Бесплатно)

Мультиязычная большая языковая модель Meta Llama 3.3 — это предварительно обученная и оптимизированная для инструкций генеративная модель объемом 70 миллиардов параметров (ввод и вывод текста). Модель Llama 3.3, настроенная для работы с текстовыми инструкциями, оптимизирована для сценариев многоязычного диалога и превосходит многие доступные открытые и закрытые чат-модели в популярных отраслевых тестах. Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Доступ к модели предоставляется через API alltokens.

Meta: Llama 3.2 3B Instruct (Бесплатно)

Llama 3.2 3B — это мультиязычная большая языковая модель с 3 миллиардами параметров, оптимизированная для сложных задач обработки естественного языка, таких как ведение диалога, логический вывод и суммаризация текстов. Модель построена на современной архитектуре transformer и поддерживает восемь языков, включая английский, испанский и хинди, с возможностью адаптации под другие языковые группы. Обученная на массиве из 9 триллионов токенов, Llama 3.2 3B демонстрирует отличные результаты в следовании инструкциям, сложном логическом мышлении и использовании внешних инструментов. Сбалансированная производительность делает ее идеальным решением для приложений, требующих точности и эффективности генерации текста в мультиязычных средах. Использование данной модели на alltokens регулируется политикой допустимого использования Meta.

Nous: Hermes 3 405B Instruct (Бесплатно)

Hermes 3 — это универсальная языковая модель, получившая множество улучшений по сравнению с Hermes 2, включая продвинутые возможности автономных агентов, значительно улучшенное ролевое взаимодействие, логическое мышление, ведение многоходовых диалогов, связность при работе с длинным контекстом и общую оптимизацию всех характеристик. Hermes 3 405B представляет собой полнопараметрическую тонкую настройку базовой модели Llama-3.1 405B флагманского уровня. Основное внимание в ней уделено адаптации ИИ под нужды пользователя, предоставлению мощных инструментов управления и контроля конечному потребителю. Серия Hermes 3 расширяет возможности Hermes 2, предлагая более надежный вызов функций, работу со структурированными данными, навыки универсального помощника и улучшенную генерацию программного кода. Hermes 3 сопоставима, а в некоторых аспектах превосходит модели Llama-3.1 Instruct по общим возможностям, обладая при этом уникальным балансом сильных и слабых сторон. На платформе alltokens вы можете получить доступ к этой модели через API.

Auto Router

от Контекст 2.00MБесплатновхБесплатновых

Ваш запрос будет обработан мета-моделью и направлен в одну из десятков доступных моделей для достижения наилучшего результата. Чтобы узнать, какая именно модель была использована, проверьте историю активности или атрибут model в ответе API. Стоимость запроса соответствует тарифу выбранной модели. Вы можете настроить список моделей для маршрутизации в документации. Запросы направляются в следующие модели: - anthropic/claude-haiku-4.5 - anthropic/claude-opus-4.6 - anthropic/claude-sonnet-4.5 - deepseek/deepseek-r1 - google/gemini-2.5-flash-lite - google/gemini-3-flash-preview - google/gemini-3-pro-preview - meta-llama/llama-3.3-70b-instruct - mistralai/codestral-2508 - mistralai/mistral-large - mistralai/mistral-medium-3.1 - mistralai/mistral-small-3.2-24b-instruct-2506 - moonshotai/kimi-k2-thinking - moonshotai/kimi-k2.5 - openai/gpt-5 - openai/gpt-5-mini - openai/gpt-5-nano - openai/gpt-5.1 - openai/gpt-5.2 - openai/gpt-5.2-pro - openai/gpt-oss-120b - perplexity/sonar - qwen/qwen3-235b-a22b - x-ai/grok-3 - x-ai/grok-3-mini - x-ai/grok-4

Perplexity: Embed V1 0.6B

pplx-embed-v1-0.6B — одна из современных текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а версия с 0.6B параметров предназначена для легковесной генерации встраиваемых представлений с низкой задержкой.

от Контекст 32K1 ₽/Mвх—вых

Thenlper: GTE-Base

Модель эмбеддингов gte-base преобразует английские предложения и абзацы в плотное векторное пространство размерностью 768. Она обеспечивает эффективное и качественное создание семантических эмбеддингов, оптимизированных для задач определения текстового сходства, семантического поиска и кластеризации.

Intfloat: E5-Base-v2

Модель эмбеддингов e5-base-v2 преобразует предложения и абзацы на английском языке в плотные векторы размерностью 768. Она создает эффективные и высококачественные семантические эмбеддинги, оптимизированные для таких задач, как семантический поиск, оценка сходства, поиск информации и кластеризация. Модель доступна через API alltokens.

Sentence Transformers: paraphrase-MiniLM-L6-v2

Модель эмбеддингов paraphrase-MiniLM-L6-v2 преобразует предложения и короткие абзацы в 384-мерное плотное векторное пространство. Она создает высококачественные семантические эмбеддинги, оптимизированные для обнаружения парафраза, оценки семантического сходства, кластеризации и задач легковесного поиска данных.

Sentence Transformers: all-MiniLM-L12-v2

Модель эмбеддингов all-MiniLM-L12-v2 преобразует предложения и короткие абзацы в 384-мерное плотное векторное пространство. Она создает эффективные и высококачественные семантические эмбеддинги, оптимизированные для таких задач, как семантический поиск, кластеризация и оценка сходства текстов.

BAAI: bge-base-en-v1.5

Модель эмбеддингов bge-base-en-v1.5 преобразует английские предложения и абзацы в плотные векторы размерности 768, обеспечивая эффективные и высококачественные семантические представления. Модель оптимизирована для задач поиска, семантического анализа и сопоставления документов. Версия v1.5 отличается улучшенным распределением показателей сходства и более высокой производительностью поиска без необходимости дополнительной настройки.

Sentence Transformers: multi-qa-mpnet-base-dot-v1

Модель эмбеддингов multi-qa-mpnet-base-dot-v1 преобразует предложения и короткие абзацы в плотное векторное пространство размерностью 768. Она генерирует высококачественные семантические эмбеддинги, оптимизированные для поиска ответов на вопросы, семантического поиска и оценки сходства текстов в различных типах контента.

Sentence Transformers: all-mpnet-base-v2

Модель эмбеддингов all-mpnet-base-v2 преобразует предложения и короткие абзацы в плотное векторное пространство размерности 768. Она обеспечивает высокую точность семантических представлений, которые отлично подходят для таких задач, как поиск информации, кластеризация, оценка сходства и ранжирование текстов.

Sentence Transformers: all-MiniLM-L6-v2

Модель эмбеддингов all-MiniLM-L6-v2 преобразует предложения и короткие абзацы в плотное векторное пространство размерностью 384. Это обеспечивает высококачественное семантическое представление данных, которое идеально подходит для таких задач, как поиск информации, кластеризация, оценка сходства и ранжирование текста. Модель доступна через API alltokens.

от Контекст 262K2 ₽/Mвх4 ₽/Mвых

inclusionAI: Ling-2.6-flash

Ling-2.6-flash — это мгновенная (инструктивная) модель от inclusionAI с общим числом параметров 104 миллиарда и активными параметрами 7,4 миллиарда, разработанная для реальных агентов, которым необходимы быстрые ответы, высокая производительность и эффективное использование токенов.

Thenlper: GTE-Large

Модель эмбеддингов gte-large преобразует английские предложения, абзацы и документы средней длины в 1024-мерное векторное пространство. Она обеспечивает высококачественные семантические эмбеддинги, оптимизированные для задач поиска информации, определения семантического сходства текстов, переранжирования и кластеризации. Модель обучена с использованием многоэтапного контрастивного обучения на обширном корпусе релевантных данных из различных областей, что гарантирует отличную производительность в универсальных сценариях использования эмбеддингов на alltokens.

Intfloat: E5-Large-v2

Модель эмбеддингов e5-large-v2 преобразует английские предложения, абзацы и документы в плотное векторное пространство размерностью 1024. Она обеспечивает высокую точность семантических представлений, оптимизированных для задач поиска информации, семантического поиска, переранжирования и оценки сходства текстов. Модель доступна через API alltokens.

Intfloat: Multilingual-E5-Large

Модель эмбеддингов multilingual-e5-large преобразует предложения, абзацы и документы на более чем 90 языках в 1024-мерное векторное пространство. Она обеспечивает создание качественных семантических векторов, оптимизированных для многоязычного поиска, определения сходства текстов на разных языках и обработки крупномасштабных массивов данных через API alltokens.

BAAI: bge-large-en-v1.5

Модель эмбеддингов bge-large-en-v1.5 преобразует английские предложения, абзацы и документы в плотное векторное пространство размерностью 1024. Она обеспечивает высокоточное семантическое представление данных, оптимизированное для семантического поиска, поиска документов и решения прикладных задач обработки естественного языка на английском языке. Модель доступна через API alltokens.

BAAI: bge-m3

Модель эмбеддингов bge-m3 преобразует предложения, абзацы и длинные документы в плотное векторное пространство размерностью 1024. Она обеспечивает высококачественные семантические эмбеддинги, оптимизированные для мультиязычного поиска, семантического анализа и работы с приложениями, требующими обработки большого контекста.

от Контекст 32K2 ₽/Mвх—вых

Qwen: Qwen3 Embedding 8B

Серия моделей Qwen3 Embedding — это новейшая разработка в семействе Qwen, специально созданная для задач встраивания текста и ранжирования. Данная серия унаследовала исключительные мультиязычные возможности, навыки понимания длинных текстов и логического вывода от своей базовой модели. Серия Qwen3 Embedding демонстрирует значительные успехи в различных задачах обработки текста, включая поиск текстовой информации, поиск кода, классификацию, кластеризацию и поиск параллельных корпусов текстов.

OpenAI: Text Embedding 3 Small

text-embedding-3-small — это улучшенная и более производительная версия модели встраивания ada от OpenAI. Встраивания (embeddings) представляют собой числовое выражение текста, которое позволяет измерять степень смысловой близости между различными фрагментами данных. Данная модель эффективна для решения задач поиска, кластеризации, формирования рекомендаций, обнаружения аномалий и классификации текста. На платформе alltokens вы можете использовать эту модель для создания высокоточных векторных представлений.

от Контекст 8K3 ₽/Mвх—вых

Qwen: Qwen3 Embedding 4B

Серия моделей Qwen3 Embedding — это новейшая разработка в семействе Qwen, специально созданная для задач встраивания текста и ранжирования. Данная серия унаследовала исключительные мультиязычные возможности, навыки понимания длинных текстов и логического вывода от своей базовой модели. Серия Qwen3 Embedding демонстрирует значительные успехи в различных задачах обработки текстов, включая поиск текстовой информации, поиск кода, классификацию, кластеризацию и поиск параллельных корпусов данных. На платформе alltokens эти модели обеспечивают высокую точность и производительность для современных ИИ-решений.

от Контекст 33K3 ₽/Mвх—вых

IBM: Granite 4.0 Micro

Granite-4.0-H-Micro — это модель с 3 миллиардами параметров из семейства Granite 4. Данные модели являются последними в серии релизов от IBM. Они специально оптимизированы для работы с длинным контекстом и вызова внешних инструментов.

от Контекст 131K3 ₽/Mвх14 ₽/Mвых

Meta: Llama 3.1 8B Instruct

Новейшая линейка моделей Meta Llama 3.1 представлена в различных конфигурациях. Данная версия 8B с дообучением для следования инструкциям отличается высокой скоростью и эффективностью. В ходе экспертных оценок модель продемонстрировала высокие результаты, сопоставимые с ведущими проприетарными моделями. Использование данной модели на alltokens регулируется политикой допустимого использования Meta.

от Контекст 131K3 ₽/Mвх7 ₽/Mвых

Mistral: Mistral Nemo

Модель с 12 миллиардами параметров и контекстным окном в 128 000 токенов, разработанная Mistral в сотрудничестве с NVIDIA. Модель является мультиязычной и поддерживает английский, французский, немецкий, испанский, итальянский, португальский, китайский, японский, корейский, арабский языки и хинди. Она поддерживает вызов функций (function calling) и распространяется под лицензией Apache 2.0.

от Контекст 131K3 ₽/Mвх4 ₽/Mвых

Perplexity: Embed V1 4B

pplx-embed-v1 -4B — это одна из передовых текстовых встраиваемых моделей Perplexity, разработанная для реального веб-масштабного поиска. Модель pplx-embed-v1 оптимизирована для стандартного плотного текстового поиска, а 4B-параметрическая модель максимизирует качество поиска.

от Контекст 32K4 ₽/Mвх—вых

LiquidAI: LFM2-24B-A2B

LFM2-24B-A2B — самая крупная модель в семействе гибридных архитектур LFM2, разработанная для эффективного развертывания на локальных устройствах. Она построена по принципу смеси экспертов (Mixture-of-Experts) с общим объемом 24 миллиарда параметров, из которых для обработки каждого токена активируются только 2 миллиарда. Это обеспечивает высокое качество генерации при сохранении низких затрат на инференс. Модель помещается в 32 ГБ оперативной памяти, что позволяет запускать ее на потребительских ноутбуках и настольных компьютерах без потери производительности. На alltokens вы можете получить доступ к этой модели через API.

от Контекст 128K4 ₽/Mвх15 ₽/Mвых

OpenAI: gpt-oss-20b

от Контекст 131K4 ₽/Mвх18 ₽/Mвых

gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на каждый проход, что оптимизирует ее для работы с низкой задержкой и позволяет развертывать на потребительском оборудовании или одиночных графических процессорах. Модель обучена в формате ответов Harmony и поддерживает настройку уровней рассуждения, дообучение, а также агентские возможности, включая вызов функций, использование инструментов и структурированный вывод данных. На платформе alltokens модель доступна для интеграции через API.

Meta: Llama 3.2 1B Instruct

Llama 3.2 1B — это языковая модель с 1 миллиардом параметров, ориентированная на эффективное выполнение задач обработки естественного языка, таких как суммаризация, ведение диалогов и многоязычный анализ текста. Компактный размер позволяет модели эффективно работать в средах с ограниченными ресурсами, сохраняя при этом высокую производительность. Поддерживая восемь основных языков с возможностью дообучения на другие, Llama 3.2 1B идеально подходит для компаний и разработчиков, которым требуются легкие, но мощные ИИ-решения. Модель способна работать в различных многоязычных сценариях без высоких требований к вычислительным мощностям, характерных для более крупных моделей. Использование данной модели регулируется политикой допустимого использования Meta. Доступ к модели осуществляется через alltokens.

от Контекст 131K4 ₽/Mвх25 ₽/Mвых

Google: Lyria 3 Clip Preview

Lyria 3 — это семейство моделей генерации музыки от Google, доступное через Gemini API. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых описаний или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Clip позволяет генерировать короткие клипы, петли и превью.

от Контекст 1.05MАудио-сниппет 30 сек: 4,97 ₽/M за клип

Qwen: Qwen3.5-9B

от Контекст 262K5 ₽/Mвх19 ₽/Mвых

Qwen3.5-9B — это мультимодальная фундаментальная модель из семейства Qwen3.5, разработанная для обеспечения сильных способностей к рассуждению, программированию и визуальному пониманию в эффективной архитектуре с 9 миллиардами параметров. Она использует унифицированную архитектуру для обработки зрения и языка с ранней фузией мультимодальных токенов, что позволяет модели обрабатывать и рассуждать над текстом и изображениями в рамках одного контекста.

NVIDIA: Nemotron Nano 9B V2

от Контекст 131K5 ₽/Mвх20 ₽/Mвых

OpenAI: gpt-oss-120b