Google Gemini модели для мультимодальных задач

Gemini-модели подходят для мультимодальных сценариев и агентных workflow. В этой выборке собраны актуальные модели Google с техническими параметрами для быстрого выбора.

Моделей в подборке

Средняя цена (вход)

50 ₽/M

Макс. контекст

1.0M

Модели

Google: Gemini 3.1 Pro Preview Custom Tools

Рассуждения

Gemini 3.1 Pro Preview Custom Tools — это специализированная версия модели Gemini 3.1 Pro, в которой оптимизирован механизм выбора инструментов. Модель реже использует стандартный bash-инструмент в тех случаях, когда доступны более эффективные сторонние или пользовательские функции. Этот предварительный эндпоинт на alltokens значительно повышает надежность вызова функций и гарантирует, что модель выберет наиболее подходящий инструмент в сценариях с кодинг-агентами и сложными рабочими процессами, включающими множество инструментов. Модель сохраняет все ключевые преимущества Gemini 3.1 Pro, включая мультимодальное рассуждение при работе с текстом, изображениями, видео, аудио и кодом, контекстное окно объемом 1 миллион токенов и высокую производительность в задачах разработки программного обеспечения.

от Контекст 1.05M230 ₽/Mвх1 380 ₽/Mвых

Google: Gemini 3.5 Flash

Рассуждения

Gemini 3.5 Flash is Google's high-efficiency multimodal model, bringing near-Pro level coding and reasoning at Flash-tier cost and speed. It is highly optimized for coding proficiency and parallel agentic execution...

от Контекст 1.05M90 ₽/Mвх539 ₽/Mвых

Google: Gemini 3.1 Flash Lite

Рассуждения

Gemini 3.1 Flash Lite — это высокоэффективная мультимодальная модель Google с общедоступным выпуском, оптимизированная для задач с низкой задержкой и высокой нагрузкой. Модель поддерживает ввод текста, изображений, видео, аудио и PDF, и предназначена для использования в легких агентских приложениях.

от Контекст 1.05M16 ₽/Mвх94 ₽/Mвых

Google: Gemini 3.1 Flash Lite Preview

Рассуждения

Gemini 3.1 Flash Lite Preview — это высокоэффективная модель Google, оптимизированная для задач с высоким объемом использования. Она превосходит Gemini 2.5 Flash Lite по общему качеству и приближается к производительности Gemini 2.5 Flash по ключевым возможностям. Улучшения охватывают аудиовход/ASR, ранжирование фрагментов RAG, перевод, извлечение данных и завершение кода. Поддерживает полные уровни мышления (минимальный, низкий, средний, высокий) для точной настройки компромисса между стоимостью и производительностью. Стоит в два раза дешевле Gemini 3 Flash.

от Контекст 1.05M16 ₽/Mвх94 ₽/Mвых

Google: Gemini 3.1 Pro Preview

Рассуждения

Gemini 3.1 Pro Preview — это передовая модель Google с расширенными возможностями рассуждения, обеспечивающая повышенную производительность в разработке программного обеспечения, надежность работы агентов и эффективное использование токенов в сложных рабочих процессах. Основанная на мультимодальной базе серии Gemini 3, она сочетает в себе высокоточное логическое мышление при работе с текстом, изображениями, видео, аудио и кодом с контекстным окном в 1 миллион токенов. При использовании многошагового вызова инструментов на alltokens необходимо сохранять детали рассуждений. Обновление 3.1 демонстрирует измеримый рост в тестах SWE и реальных средах программирования, а также более уверенное выполнение автономных задач в структурированных областях, таких как финансы и работа с электронными таблицами. Разработанная для продвинутой разработки и агентных систем, Gemini 3.1 Pro Preview улучшает стабильность при выполнении длительных задач и оркестрацию инструментов, одновременно повышая эффективность расхода токенов. В модели представлен новый средний уровень мышления для оптимального баланса стоимости, скорости и производительности. Модель отлично справляется с написанием кода через агентов, структурированным планированием, мультимодальным анализом и автоматизацией рабочих процессов, что делает ее подходящей для автономных агентов, финансового моделирования, автоматизации таблиц и корпоративных задач с большим объемом контекста.

от Контекст 1.05M120 ₽/Mвх718 ₽/Mвых

Google: Gemini 3 Flash Preview

Рассуждения

#20 в рейтинге

Gemini 3 Flash Preview — это высокоскоростная и эффективная модель с поддержкой логических рассуждений, разработанная для агентных рабочих процессов, многошаговых диалогов и помощи в написании кода. Она обеспечивает производительность в рассуждениях и использовании инструментов на уровне, близком к версии Pro, но с существенно меньшей задержкой, чем у более крупных вариантов Gemini. Это делает ее оптимальным выбором для интерактивной разработки, длительных циклов работы агентов и совместного программирования. По сравнению с Gemini 2.5 Flash, данная модель предлагает значительные улучшения в качестве логических выводов, мультимодальном понимании и надежности. Модель поддерживает контекстное окно объемом 1 миллион токенов и мультимодальные входные данные, включая текст, изображения, аудио, видео и PDF-файлы, с выводом в текстовом формате. Функционал включает настраиваемые уровни рассуждений (минимальный, низкий, средний, высокий), структурированный вывод, использование инструментов и автоматическое кэширование контекста. Gemini 3 Flash Preview оптимизирована для пользователей, которым требуются развитые способности к рассуждению и агентное поведение без затрат и задержек, характерных для полномасштабных флагманских моделей.

от Контекст 1.05M32 ₽/Mвх187 ₽/Mвых

Google: Gemini 2.5 Flash Lite

Рассуждения

🏆 #1 в рейтинге

Gemini 2.5 Flash-Lite — это облегченная модель в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и максимальной экономической эффективности. Она обеспечивает повышенную пропускную способность, ускоренную генерацию токенов и лучшие показатели в стандартных тестах по сравнению с предыдущими моделями Flash. По умолчанию функция рассуждений отключена для обеспечения максимальной скорости работы, однако разработчики могут активировать ее через параметр Reasoning API, чтобы выборочно повысить интеллектуальные возможности модели за счет увеличения стоимости. На платформе alltokens вы можете интегрировать данную модель в свои проекты.

от Контекст 1.05M7 ₽/Mвх25 ₽/Mвых

Google: Gemini 2.5 Flash

Рассуждения

#10 в рейтинге

Gemini 2.5 Flash — это передовая высокопроизводительная модель от Google, специально разработанная для сложного логического вывода, написания кода, решения математических и научных задач. Она оснащена встроенными механизмами рассуждения, что позволяет ей выдавать ответы с повышенной точностью и глубокой проработкой контекста. Кроме того, Gemini 2.5 Flash поддерживает настройку через параметр max tokens for reasoning, доступный в API alltokens.

от Контекст 1.05M19 ₽/Mвх156 ₽/Mвых

Google: Gemini 2.5 Pro

Рассуждения

Gemini 2.5 Pro — это современная модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического рассуждения, программирования, математики и естественных наук. Модель использует возможности глубокого мышления, что позволяет ей выстраивать цепочки рассуждений для достижения повышенной точности и тонкой работы с контекстом. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных тестах и занимает первое место в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем.

от Контекст 1.05M75 ₽/Mвх598 ₽/Mвых

Google: Gemini 2.5 Pro Preview 05-06

Рассуждения

Gemini 2.5 Pro — это передовая модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического мышления, программирования, математики и естественных наук. Модель использует возможности глубокого рассуждения, что позволяет ей выстраивать цепочки мыслей для достижения повышенной точности и тонкой обработки контекста. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных бенчмарках и занимает первое место в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем. Доступ к модели осуществляется через API alltokens.

от Контекст 1.05M75 ₽/Mвх598 ₽/Mвых

Google: Gemini Embedding 2

Gemini Embedding 2 — первая мультимодальная модель встраивания от Google. В настоящее время она поддерживает преобразование текста и изображений в единое векторное пространство для семантического поиска и генерации с использованием дополненной информации (RAG). Модель поддерживает...

от Контекст 8K25 ₽/Mвх—вых

Google: Gemini Embedding 2 Preview

Gemini Embedding 2 Preview — это первая мультимодальная модель векторных представлений от Google, которая отображает текст, изображения, видео, аудио и PDF-файлы в единое векторное пространство для семантического поиска и генерации с расширением через поиск (RAG).

от Контекст 8K25 ₽/Mвх—вых

Google: Gemini 2.5 Pro Preview 06-05

Рассуждения

Gemini 2.5 Pro — это современная модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического рассуждения, программирования, математики и естественных наук. Модель использует возможности глубокого мышления, что позволяет ей выстраивать цепочки рассуждений для достижения повышенной точности и тонкой обработки контекста. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных тестах и занимает лидирующие позиции в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем. Доступ к модели осуществляется через API alltokens.

от Контекст 1.05M75 ₽/Mвх598 ₽/Mвых

Google: Gemma 4 26B A4B (Бесплатно)

Рассуждения

Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференции активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели.

от Контекст 262KБесплатновхБесплатновых

Google: Gemma 4 26B A4B

Рассуждения

Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференсе активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели, при значительно меньших вычислительных затратах. Поддерживает мультимодальные входные данные, включая текст, изображения и видео (до 60 секунд с частотой 1 кадр в секунду). Оснащена 256K контекстным окном, встроенным вызовом функций, настраиваемым режимом мышления/рассуждения и поддержкой структурированного вывода. Выпущена под лицензией Apache 2.0.

от Контекст 262K8 ₽/Mвх38 ₽/Mвых

Google: Gemma 4 31B (Бесплатно)

Рассуждения

Gemma 4 31B Instruct - это мультимодальная плотная модель Google DeepMind объемом 30,7 миллиарда параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенными функциями...

от Контекст 262KБесплатновхБесплатновых

Google: Gemma 4 31B

Рассуждения

Gemma 4 31B Instruct — это мультимодальная модель Google DeepMind с 30,7 млрд параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенным вызовом функций и многоязычной поддержкой более 140 языков. Отлично справляется с программированием, рассуждениями и пониманием документов. Распространяется под лицензией Apache 2.0.

от Контекст 262K15 ₽/Mвх44 ₽/Mвых

Google: Nano Banana 2 (Gemini 3.1 Flash Image)

Рассуждения

Gemini 3.1 Flash Image, также известная как "Nano Banana 2", — это новейшая модель генерации и редактирования изображений от Google, обеспечивающая профессиональное качество визуального контента с высокой скоростью обработки. Модель сочетает в себе передовые технологии...

от Контекст 131K60 ₽/Mвх359 ₽/Mвых

Google: Nano Banana 2 (Gemini 3.1 Flash Image Preview)

Рассуждения

Gemini 3.1 Flash Image Preview, также известная как Nano Banana 2, — это новейшая современная модель Google для генерации и редактирования изображений, обеспечивающая визуальное качество уровня Pro на скорости Flash. Она сочетает в себе глубокое понимание контекста с быстрым и экономичным выводом, что делает создание сложных визуальных эффектов и итеративное редактирование значительно доступнее. Соотношение сторон можно настраивать с помощью параметра API image_config. Модель доступна на платформе alltokens.

от Контекст 131K32 ₽/Mвх187 ₽/Mвых

Google: Gemma 3 4B

Gemma 3 внедряет мультимодальность, поддерживая визуально-языковой ввод и текстовый вывод. Модель обрабатывает контекстное окно объемом до 128 000 токенов, понимает более 140 языков и предлагает улучшенные возможности в области математики, логических рассуждений и ведения диалога, включая поддержку структурированных ответов и вызов функций.

от Контекст 131K7 ₽/Mвх13 ₽/Mвых

Google: Gemma 3 12B

Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в области математики, логических рассуждений и ведения диалога, включая поддержку структурированных ответов и вызов функций. Gemma 3 12B является второй по величине моделью в семействе Gemma 3 после версии 27B.

от Контекст 131K7 ₽/Mвх19 ₽/Mвых

Google: Gemma 3 27B

Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и демонстрирует улучшенные возможности в математике, логических рассуждениях и ведении диалога, включая поддержку структурированных ответов и вызов функций. Gemma 3 27B — это новейшая открытая модель от Google, ставшая преемницей Gemma 2. Доступ к ней предоставляется через alltokens.

от Контекст 131K10 ₽/Mвх20 ₽/Mвых

Google: Nano Banana 2 Lite (Gemini 3.1 Flash Lite Image)

Рассуждения

Nano Banana 2 Lite (Gemini 3.1 Flash Lite Image) — это самая быстрая и экономичная модель Gemini от Google, созданная для высокоскоростных разработческих процессов и быстрого визуального исследования. Она обеспечивает генерацию изображений из текста...

от Контекст 66K32 ₽/Mвх187 ₽/Mвых

Google: Nano Banana Pro (Gemini 3 Pro Image)

Рассуждения

Nano Banana Pro — самая продвинутая модель Google для генерации и редактирования изображений, основанная на Gemini 3 Pro. Она расширяет возможности оригинальной Nano Banana за счёт значительно улучшенного мультимодального рассуждения, реального контекстного понимания и других усовершенствований.

от Контекст 66K230 ₽/Mвх1 380 ₽/Mвых

Google: Nano Banana Pro (Gemini 3 Pro Image Preview)

Рассуждения

Nano Banana Pro — это самая продвинутая модель Google для генерации и редактирования изображений, созданная на базе Gemini 3 Pro. Она расширяет возможности оригинальной версии Nano Banana благодаря значительно улучшенному мультимодальному мышлению, привязке к реальным фактам и высокоточному визуальному синтезу. Модель создает контекстно-зависимую графику — от инфографики и диаграмм до кинематографических композиций — и может использовать актуальную информацию через инструменты поиска. Модель обеспечивает лидирующее в индустрии качество рендеринга текста на изображениях, включая длинные фрагменты и многоязычные макеты, а также стабильное смешивание нескольких изображений и точное сохранение внешности до пяти объектов. Nano Banana Pro добавляет детализированные инструменты управления, такие как локальное редактирование, настройка освещения и фокуса, трансформация ракурсов камеры, поддержка разрешений 2K/4K и гибкое управление соотношением сторон. Она предназначена для профессионального дизайна, визуализации продуктов, создания раскадровок и сложных многоэлементных композиций, оставаясь при этом эффективной для повседневных задач по созданию контента через alltokens.

от Контекст 66K120 ₽/Mвх718 ₽/Mвых

Google: Nano Banana (Gemini 2.5 Flash Image)

Gemini 2.5 Flash Image, также известная как Nano Banana, теперь доступна для широкого использования. Это современная модель генерации изображений с глубоким пониманием контекста. Она поддерживает создание и редактирование изображений, а также ведение многоэтапных диалогов. Соотношение сторон можно настраивать с помощью параметра API image_config. Модель доступна через платформу alltokens.

от Контекст 33K19 ₽/Mвх156 ₽/Mвых

Google: Gemma 3n 4B

Gemma 3n E4B-it оптимизирована для эффективной работы на мобильных и маломощных устройствах, таких как смартфоны, ноутбуки и планшеты. Модель поддерживает мультимодальные входные данные, включая текст, изображения и аудио, что позволяет выполнять широкий спектр задач: генерацию текста, распознавание речи, перевод и анализ изображений. Благодаря внедрению таких инноваций, как кэширование эмбеддингов на каждом слое (PLE) и архитектура MatFormer, Gemma 3n динамически управляет использованием памяти и вычислительной нагрузкой, выборочно активируя параметры модели, что значительно снижает требования к ресурсам во время работы. Модель поддерживает более 140 языков и обладает гибким контекстным окном в 32 000 токенов. Gemma 3n способна выборочно загружать параметры, оптимизируя потребление памяти и вычислительную эффективность в зависимости от конкретной задачи или возможностей устройства. Это делает ее отличным решением для приложений, ориентированных на конфиденциальность, работу в автономном режиме и локальное использование ИИ на устройствах через alltokens.

от Контекст 33K8 ₽/Mвх15 ₽/Mвых

Google: Gemini Embedding 001

gemini-embedding-001 предлагает передовой унифицированный опыт работы в различных областях, включая науку, юриспруденцию, финансы и программирование. Эта модель встраивания стабильно занимает лидирующие позиции в многоязычном рейтинге Massive Text Embedding Benchmark (MTEB) с момента ее экспериментального запуска в марте. На платформе alltokens вы можете получить доступ к этой технологии для решения своих задач.

от Контекст 20K19 ₽/Mвх—вых

Google: Gemma 2 27B

Gemma 2 27B от Google — это открытая модель, созданная на основе тех же исследований и технологий, которые использовались при разработке моделей Gemini. Модели Gemma отлично подходят для широкого спектра задач по генерации текста, включая ответы на вопросы, суммаризацию и логические рассуждения. Использование Gemma регулируется условиями использования Google Gemma. Доступ к модели осуществляется через API alltokens.

от Контекст 8K81 ₽/Mвх81 ₽/Mвых

FAQ

Какие Gemini модели лучше для мультимодального ввода?

Ориентируйтесь на модели, где в `inputModalities` присутствуют image/audio/video — они подходят для сложных multimodal-pipeline.

Можно ли использовать Gemini через OpenAI-совместимый формат?

Да, AllTokens предоставляет единый совместимый API, что упрощает интеграцию.

Смежные подборки

OpenAI модели Anthropic модели Модели для программирования Недорогие модели Модели с длинным контекстом Мультимодальные модели

Лучшие для задач

Анализ длинных документов

Подборка моделей с большим контекстом для договоров, отчётов и knowledge base.

модели с длинным контекстом для документов

Мультимодальные продукты

Модели для сценариев text+image/audio/video и мультимодальных ассистентов.

мультимодальные LLM для изображений и аудио

Новости по теме

Смотреть новости по этой подборке Новости: Google: Gemini 3.1 Pro Preview Custom Tools Новости: Google: Gemini 3.5 Flash Новости: Google: Gemini 3.1 Flash Lite Новости: Google: Gemini 3.1 Flash Lite Preview Новости: Google: Gemini 3.1 Pro Preview

Модели

Google: Gemini 3.1 Pro Preview Custom Tools

Google: Gemini 3.5 Flash

Google: Gemini 3.1 Flash Lite

Google: Gemini 3.1 Flash Lite Preview

Google: Gemini 3.1 Pro Preview

Google: Gemini 3 Flash Preview

Google: Gemini 2.5 Flash Lite

Google: Gemini 2.5 Flash

Google: Gemini 2.5 Pro

Google: Gemini 2.5 Pro Preview 05-06

Google: Gemini Embedding 2

Google: Gemini Embedding 2 Preview

Google: Gemini 2.5 Pro Preview 06-05

Google: Gemma 4 26B A4B (Бесплатно)

Google: Gemma 4 26B A4B

Google: Gemma 4 31B (Бесплатно)

Google: Gemma 4 31B

Google: Nano Banana 2 (Gemini 3.1 Flash Image)

Google: Nano Banana 2 (Gemini 3.1 Flash Image Preview)

Google: Gemma 3 4B

Google: Gemma 3 12B

Google: Gemma 3 27B

Google: Nano Banana 2 Lite (Gemini 3.1 Flash Lite Image)

Google: Nano Banana Pro (Gemini 3 Pro Image)

Google: Nano Banana Pro (Gemini 3 Pro Image Preview)

Google: Nano Banana (Gemini 2.5 Flash Image)

Google: Gemma 3n 4B

Google: Gemini Embedding 001

Google: Gemma 2 27B

Похожие модели внутри подборки

Близкие по цене

Близкие по контексту

Близкие по параметрам

FAQ

Какие Gemini модели лучше для мультимодального ввода?

Можно ли использовать Gemini через OpenAI-совместимый формат?

Смежные подборки

Лучшие для задач

Новости по теме

Продукт

Платформа

Контент

Разработчикам

Право

Контакты