Google Gemini модели для мультимодальных задач
Gemini-модели подходят для мультимодальных сценариев и агентных workflow. В этой выборке собраны актуальные модели Google с техническими параметрами для быстрого выбора.
Моделей в подборке
29
Средняя цена (вход)
56 ₽/M
Макс. контекст
1.0M
Модели

Google: Gemini 3.1 Pro Preview Custom Tools
Gemini 3.1 Pro Preview Custom Tools — это специализированная версия модели Gemini 3.1 Pro, в которой оптимизирован механизм выбора инструментов. Модель реже использует стандартный bash-инструмент в тех случаях, когда доступны более эффективные сторонние или пользовательские функции. Этот предварительный эндпоинт на alltokens значительно повышает надежность вызова функций и гарантирует, что модель выберет наиболее подходящий инструмент в сценариях с кодинг-агентами и сложными рабочими процессами, включающими множество инструментов. Модель сохраняет все ключевые преимущества Gemini 3.1 Pro, включая мультимодальное рассуждение при работе с текстом, изображениями, видео, аудио и кодом, контекстное окно объемом 1 миллион токенов и высокую производительность в задачах разработки программного обеспечения.

Google: Gemini 3.1 Flash Lite
Gemini 3.1 Flash Lite — это высокоэффективная мультимодальная модель Google с общедоступным выпуском, оптимизированная для задач с низкой задержкой и высокой нагрузкой. Модель поддерживает ввод текста, изображений, видео, аудио и PDF, и предназначена для использования в легких агентских приложениях.

Google: Gemini 3.1 Flash Lite Preview
Gemini 3.1 Flash Lite Preview — это высокоэффективная модель Google, оптимизированная для задач с высоким объемом использования. Она превосходит Gemini 2.5 Flash Lite по общему качеству и приближается к производительности Gemini 2.5 Flash по ключевым возможностям. Улучшения охватывают аудиовход/ASR, ранжирование фрагментов RAG, перевод, извлечение данных и завершение кода. Поддерживает полные уровни мышления (минимальный, низкий, средний, высокий) для точной настройки компромисса между стоимостью и производительностью. Стоит в два раза дешевле Gemini 3 Flash.

Google: Gemini 3.1 Pro Preview
Gemini 3.1 Pro Preview — это передовая модель Google с расширенными возможностями рассуждения, обеспечивающая повышенную производительность в разработке программного обеспечения, надежность работы агентов и эффективное использование токенов в сложных рабочих процессах. Основанная на мультимодальной базе серии Gemini 3, она сочетает в себе высокоточное логическое мышление при работе с текстом, изображениями, видео, аудио и кодом с контекстным окном в 1 миллион токенов. При использовании многошагового вызова инструментов на alltokens необходимо сохранять детали рассуждений. Обновление 3.1 демонстрирует измеримый рост в тестах SWE и реальных средах программирования, а также более уверенное выполнение автономных задач в структурированных областях, таких как финансы и работа с электронными таблицами. Разработанная для продвинутой разработки и агентных систем, Gemini 3.1 Pro Preview улучшает стабильность при выполнении длительных задач и оркестрацию инструментов, одновременно повышая эффективность расхода токенов. В модели представлен новый средний уровень мышления для оптимального баланса стоимости, скорости и производительности. Модель отлично справляется с написанием кода через агентов, структурированным планированием, мультимодальным анализом и автоматизацией рабочих процессов, что делает ее подходящей для автономных агентов, финансового моделирования, автоматизации таблиц и корпоративных задач с большим объемом контекста.

Google: Gemini 3 Flash Preview
Gemini 3 Flash Preview — это высокоскоростная и эффективная модель с поддержкой логических рассуждений, разработанная для агентных рабочих процессов, многошаговых диалогов и помощи в написании кода. Она обеспечивает производительность в рассуждениях и использовании инструментов на уровне, близком к версии Pro, но с существенно меньшей задержкой, чем у более крупных вариантов Gemini. Это делает ее оптимальным выбором для интерактивной разработки, длительных циклов работы агентов и совместного программирования. По сравнению с Gemini 2.5 Flash, данная модель предлагает значительные улучшения в качестве логических выводов, мультимодальном понимании и надежности. Модель поддерживает контекстное окно объемом 1 миллион токенов и мультимодальные входные данные, включая текст, изображения, аудио, видео и PDF-файлы, с выводом в текстовом формате. Функционал включает настраиваемые уровни рассуждений (минимальный, низкий, средний, высокий), структурированный вывод, использование инструментов и автоматическое кэширование контекста. Gemini 3 Flash Preview оптимизирована для пользователей, которым требуются развитые способности к рассуждению и агентное поведение без затрат и задержек, характерных для полномасштабных флагманских моделей.

Google: Gemini 2.5 Flash Lite Preview 09-2025
Gemini 2.5 Flash-Lite — это облегченная модель рассуждений в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и максимальной экономической эффективности. Она обеспечивает повышенную пропускную способность, более генерацию токенов и улучшенную производительность в стандартных тестах по сравнению с предыдущими моделями Flash. По умолчанию функция мышления (многопроходное рассуждение) отключена для обеспечения максимальной скорости, однако разработчики могут активировать ее через параметр Reasoning API, чтобы выборочно повышать уровень интеллекта модели за счет увеличения стоимости. На alltokens вы можете получить доступ к этой модели для интеграции в свои проекты.

Google: Gemini 2.5 Flash Lite
Gemini 2.5 Flash-Lite — это облегченная модель в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и максимальной экономической эффективности. Она обеспечивает повышенную пропускную способность, ускоренную генерацию токенов и лучшие показатели в стандартных тестах по сравнению с предыдущими моделями Flash. По умолчанию функция рассуждений отключена для обеспечения максимальной скорости работы, однако разработчики могут активировать ее через параметр Reasoning API, чтобы выборочно повысить интеллектуальные возможности модели за счет увеличения стоимости. На платформе alltokens вы можете интегрировать данную модель в свои проекты.

Google: Gemini 2.5 Flash
Gemini 2.5 Flash — это передовая высокопроизводительная модель от Google, специально разработанная для сложного логического вывода, написания кода, решения математических и научных задач. Она оснащена встроенными механизмами рассуждения, что позволяет ей выдавать ответы с повышенной точностью и глубокой проработкой контекста. Кроме того, Gemini 2.5 Flash поддерживает настройку через параметр max tokens for reasoning, доступный в API alltokens.

Google: Gemini 2.5 Pro
Gemini 2.5 Pro — это современная модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического рассуждения, программирования, математики и естественных наук. Модель использует возможности глубокого мышления, что позволяет ей выстраивать цепочки рассуждений для достижения повышенной точности и тонкой работы с контекстом. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных тестах и занимает первое место в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем.

Google: Gemini 2.5 Pro Preview 05-06
Gemini 2.5 Pro — это передовая модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического мышления, программирования, математики и естественных наук. Модель использует возможности глубокого рассуждения, что позволяет ей выстраивать цепочки мыслей для достижения повышенной точности и тонкой обработки контекста. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных бенчмарках и занимает первое место в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем. Доступ к модели осуществляется через API alltokens.

Google: Gemini 2.0 Flash Lite
Gemini 2.0 Flash Lite обеспечивает значительно более высокую скорость генерации первого токена (TTFT) по сравнению с Gemini Flash 1.5. При этом модель сохраняет качество работы на уровне более крупных решений, таких как Gemini Pro 1.5, предлагая максимально экономичную стоимость токенов.

Google: Gemini 2.0 Flash
Gemini Flash 2.0 обеспечивает значительно более высокую скорость генерации первого токена по сравнению с Gemini Flash 1.5, сохраняя при этом качество ответов на уровне более крупных моделей, таких как Gemini Pro 1.5. В этой версии представлены существенные улучшения в мультимодальном понимании, написании кода, следовании сложным инструкциям и вызове функций. Совокупность этих обновлений позволяет создавать более плавные и надежные сценарии работы автономных агентов через alltokens.

Google: Gemini Embedding 2 Preview
Gemini Embedding 2 Preview — это первая мультимодальная модель векторных представлений от Google, которая отображает текст, изображения, видео, аудио и PDF-файлы в единое векторное пространство для семантического поиска и генерации с расширением через поиск (RAG).

Google: Gemini 2.5 Pro Preview 06-05
Gemini 2.5 Pro — это современная модель искусственного интеллекта от Google, разработанная для решения сложных задач в области логического рассуждения, программирования, математики и естественных наук. Модель использует возможности глубокого мышления, что позволяет ей выстраивать цепочки рассуждений для достижения повышенной точности и тонкой обработки контекста. Gemini 2.5 Pro демонстрирует высочайшую производительность в различных тестах и занимает лидирующие позиции в рейтинге LMArena, что подтверждает превосходное соответствие человеческим предпочтениям и выдающиеся способности к решению комплексных проблем. Доступ к модели осуществляется через API alltokens.

Google: Gemma 4 26B A4B (Бесплатно)
Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференции активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели.

Google: Gemma 4 26B A4B
Gemma 4 26B A4B IT — это модель с инструкционной настройкой Mixture-of-Experts (MoE) от Google DeepMind. Несмотря на 25,2 млрд общих параметров, при инференсе активируется только 3,8 млрд на токен — обеспечивая качество, близкое к 31-миллиардной модели, при значительно меньших вычислительных затратах. Поддерживает мультимодальные входные данные, включая текст, изображения и видео (до 60 секунд с частотой 1 кадр в секунду). Оснащена 256K контекстным окном, встроенным вызовом функций, настраиваемым режимом мышления/рассуждения и поддержкой структурированного вывода. Выпущена под лицензией Apache 2.0.

Google: Gemma 4 31B (Бесплатно)
Gemma 4 31B Instruct - это мультимодальная плотная модель Google DeepMind объемом 30,7 миллиарда параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенными функциями...

Google: Gemma 4 31B
Gemma 4 31B Instruct — это мультимодальная модель Google DeepMind с 30,7 млрд параметров, поддерживающая текстовые и изображений входные данные с текстовым выводом. Оснащена 256K контекстным окном, настраиваемым режимом мышления/рассуждения, встроенным вызовом функций и многоязычной поддержкой более 140 языков. Отлично справляется с программированием, рассуждениями и пониманием документов. Распространяется под лицензией Apache 2.0.

Google: Lyria 3 Pro Preview
Lyria 3 — это семейство моделей генерации музыки от Google, доступное через API Gemini. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых подсказок или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Pro способна генерировать полноформатные песни с припевами, куплетами и переходными частями.

Google: Lyria 3 Clip Preview
Lyria 3 — это семейство моделей генерации музыки от Google, доступное через Gemini API. С помощью Lyria 3 вы можете создавать высококачественное стереозвуковое аудио с частотой 48 кГц на основе текстовых описаний или изображений. Эти модели обеспечивают структурную целостность, включая вокал, синхронизированные тексты и полные инструментальные аранжировки. Lyria 3 Clip позволяет генерировать короткие клипы, петли и превью.

Google: Nano Banana 2 (Gemini 3.1 Flash Image Preview)
Gemini 3.1 Flash Image Preview, также известная как Nano Banana 2, — это новейшая современная модель Google для генерации и редактирования изображений, обеспечивающая визуальное качество уровня Pro на скорости Flash. Она сочетает в себе глубокое понимание контекста с быстрым и экономичным выводом, что делает создание сложных визуальных эффектов и итеративное редактирование значительно доступнее. Соотношение сторон можно настраивать с помощью параметра API image_config. Модель доступна на платформе alltokens.

Google: Gemma 3 4B
Gemma 3 внедряет мультимодальность, поддерживая визуально-языковой ввод и текстовый вывод. Модель обрабатывает контекстное окно объемом до 128 000 токенов, понимает более 140 языков и предлагает улучшенные возможности в области математики, логических рассуждений и ведения диалога, включая поддержку структурированных ответов и вызов функций.

Google: Gemma 3 12B
Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и обладает улучшенными возможностями в области математики, логических рассуждений и ведения диалога, включая поддержку структурированных ответов и вызов функций. Gemma 3 12B является второй по величине моделью в семействе Gemma 3 после версии 27B.

Google: Gemma 3 27B
Gemma 3 внедряет мультимодальность, поддерживая визуально-текстовый ввод и текстовый вывод. Модель работает с контекстным окном до 128 000 токенов, понимает более 140 языков и демонстрирует улучшенные возможности в математике, логических рассуждениях и ведении диалога, включая поддержку структурированных ответов и вызов функций. Gemma 3 27B — это новейшая открытая модель от Google, ставшая преемницей Gemma 2. Доступ к ней предоставляется через alltokens.

Google: Nano Banana Pro (Gemini 3 Pro Image Preview)
Nano Banana Pro — это самая продвинутая модель Google для генерации и редактирования изображений, созданная на базе Gemini 3 Pro. Она расширяет возможности оригинальной версии Nano Banana благодаря значительно улучшенному мультимодальному мышлению, привязке к реальным фактам и высокоточному визуальному синтезу. Модель создает контекстно-зависимую графику — от инфографики и диаграмм до кинематографических композиций — и может использовать актуальную информацию через инструменты поиска. Модель обеспечивает лидирующее в индустрии качество рендеринга текста на изображениях, включая длинные фрагменты и многоязычные макеты, а также стабильное смешивание нескольких изображений и точное сохранение внешности до пяти объектов. Nano Banana Pro добавляет детализированные инструменты управления, такие как локальное редактирование, настройка освещения и фокуса, трансформация ракурсов камеры, поддержка разрешений 2K/4K и гибкое управление соотношением сторон. Она предназначена для профессионального дизайна, визуализации продуктов, создания раскадровок и сложных многоэлементных композиций, оставаясь при этом эффективной для повседневных задач по созданию контента через alltokens.

Google: Nano Banana (Gemini 2.5 Flash Image)
Gemini 2.5 Flash Image, также известная как Nano Banana, теперь доступна для широкого использования. Это современная модель генерации изображений с глубоким пониманием контекста. Она поддерживает создание и редактирование изображений, а также ведение многоэтапных диалогов. Соотношение сторон можно настраивать с помощью параметра API image_config. Модель доступна через платформу alltokens.

Google: Gemma 3n 4B
Gemma 3n E4B-it оптимизирована для эффективной работы на мобильных и маломощных устройствах, таких как смартфоны, ноутбуки и планшеты. Модель поддерживает мультимодальные входные данные, включая текст, изображения и аудио, что позволяет выполнять широкий спектр задач: генерацию текста, распознавание речи, перевод и анализ изображений. Благодаря внедрению таких инноваций, как кэширование эмбеддингов на каждом слое (PLE) и архитектура MatFormer, Gemma 3n динамически управляет использованием памяти и вычислительной нагрузкой, выборочно активируя параметры модели, что значительно снижает требования к ресурсам во время работы. Модель поддерживает более 140 языков и обладает гибким контекстным окном в 32 000 токенов. Gemma 3n способна выборочно загружать параметры, оптимизируя потребление памяти и вычислительную эффективность в зависимости от конкретной задачи или возможностей устройства. Это делает ее отличным решением для приложений, ориентированных на конфиденциальность, работу в автономном режиме и локальное использование ИИ на устройствах через alltokens.

Google: Gemini Embedding 001
gemini-embedding-001 предлагает передовой унифицированный опыт работы в различных областях, включая науку, юриспруденцию, финансы и программирование. Эта модель встраивания стабильно занимает лидирующие позиции в многоязычном рейтинге Massive Text Embedding Benchmark (MTEB) с момента ее экспериментального запуска в марте. На платформе alltokens вы можете получить доступ к этой технологии для решения своих задач.

Google: Gemma 2 27B
Gemma 2 27B от Google — это открытая модель, созданная на основе тех же исследований и технологий, которые использовались при разработке моделей Gemini. Модели Gemma отлично подходят для широкого спектра задач по генерации текста, включая ответы на вопросы, суммаризацию и логические рассуждения. Использование Gemma регулируется условиями использования Google Gemma. Доступ к модели осуществляется через API alltokens.
Похожие модели внутри подборки
Быстрые связки для углубленного сравнения: по цене, контексту и поддерживаемым API-параметрам.
Близкие по контексту
Google: Gemini 3.1 Pro Preview Custom Tools ↔ Google: Gemini 3.1 Flash Lite (Δ 0K)
Google: Gemini 3.1 Flash Lite ↔ Google: Gemini 3.1 Flash Lite Preview (Δ 0K)
Google: Gemini 3.1 Flash Lite Preview ↔ Google: Gemini 3.1 Pro Preview (Δ 0K)
Google: Gemini 3.1 Pro Preview ↔ Google: Gemini 3 Flash Preview (Δ 0K)
Google: Gemini 3 Flash Preview ↔ Google: Gemini 2.5 Flash Lite Preview 09-2025 (Δ 0K)
Google: Gemini 2.5 Flash Lite Preview 09-2025 ↔ Google: Gemini 2.5 Flash Lite (Δ 0K)
Близкие по параметрам
Google: Gemini 3.1 Pro Preview Custom Tools ↔ Google: Gemini 3.1 Flash Lite (общих: 11)
Google: Gemini 3.1 Flash Lite Preview ↔ Google: Gemini 3.1 Pro Preview Custom Tools (общих: 11)
Google: Gemini 3.1 Pro Preview ↔ Google: Gemini 3.1 Pro Preview Custom Tools (общих: 11)
Google: Gemini 3 Flash Preview ↔ Google: Gemini 3.1 Pro Preview Custom Tools (общих: 11)
Google: Gemini 2.5 Flash Lite Preview 09-2025 ↔ Google: Gemini 3.1 Pro Preview Custom Tools (общих: 11)
Google: Gemini 2.5 Flash Lite ↔ Google: Gemini 3.1 Pro Preview Custom Tools (общих: 11)
FAQ
Какие Gemini модели лучше для мультимодального ввода?
Ориентируйтесь на модели, где в `inputModalities` присутствуют image/audio/video — они подходят для сложных multimodal-pipeline.
Можно ли использовать Gemini через OpenAI-совместимый формат?
Да, AllTokens предоставляет единый совместимый API, что упрощает интеграцию.