В чем главная особенность Arcee AI: Spotlight?

Модель специально дообучена для задач image-text grounding, что позволяет ей максимально точно связывать текстовые запросы с визуальными объектами.

Какой объем контекста поддерживает Spotlight на alltokens?

Модель поддерживает внушительное контекстное окно до 131 072 токенов, что позволяет анализировать насыщенные данными документы и изображения.

На какой архитектуре базируется эта модель?

Spotlight разработана на основе архитектуры Qwen 2.5-VL, которая зарекомендовала себя как эффективное решение для мультимодальных задач.

Arcee AI: Spotlight

ARArcee-aiОбновлено: 05 мая 2025 г.

Arcee AI: Spotlight — это специализированная мультимодальная модель на 7 миллиардов параметров, оптимизированная для точной привязки текста к изображениям. Благодаря архитектуре на базе Qwen 2.5-VL и расширенному контекстному окну, она эффективно справляется с детальным анализом визуальных данных.

Использовать через API

Метрики

Вход

23 ₽/M

Выход

23 ₽/M

Контекст

131k tokens

Параметры

Релиз

05 мая 2025 г.

Поддерживаемые параметры

frequency_penaltylogit_biasmax_tokensmin_ppresence_penaltyrepetition_penaltystoptemperaturetop_ktop_p

Технический обзор

Spotlight — это мультимодальная модель с 7 миллиардами параметров, созданная на базе Qwen 2.5-VL и дообученная Arcee AI для задач точной привязки текста к изображениям. Модель поддерживает контекстное окно в 32 000 токенов, что позволяет вести сложные диалоги, объединяющие объемные документы с одним или несколькими изображениями. При обучении основной упор делался на высокую скорость работы на пользовательских видеокартах при сохранении высокой точности в описании изображений, ответах на визуальные вопросы и анализе диаграмм. Благодаря этому Spotlight эффективно встраивается в рабочие процессы агентов, где требуется мгновенная интерпретация скриншотов, графиков или макетов интерфейса. Первые тесты показывают, что модель не уступает или даже превосходит более крупные решения, такие как LLaVA-1.6 13B, в популярных бенчмарках VQA и тестах на галлюцинации POPE.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Недорогие модели

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

Arcee AI: SpotlightТекущая

Для чего

Контекст

131k

Цена ₽

23 / 23

Arcee AI: SpotlightТекущая

131k

23 / 23

Модель

Mistral: Ministral 3 8B 2512

Для чего

Обе модели относятся к классу компактных мультимодальных решений, подходящих для быстрой обработки изображений и текста.

Контекст

262k

Цена ₽

19 / 19

Mistral: Ministral 3 8B 2512

262k

19 / 19

Модель

ByteDance: UI-TARS 7B

Для чего

Имеет аналогичное количество параметров (7B) и специализируется на задачах компьютерного зрения и понимания интерфейсов.

Контекст

128k

Цена ₽

13 / 25

ByteDance: UI-TARS 7B

128k

13 / 25

Когда выбирать

Необходима высокая точность сопоставления текстовых описаний с конкретными элементами на изображениях
Требуется обработка длинных последовательностей данных в рамках мультимодального контекста
Нужна компактная и быстрая модель для интеграции в технологические стеки с ограниченными ресурсами

Когда не выбирать

Требуется решение сложных логических задач, выходящих за рамки визуального анализа
Необходима работа исключительно с текстовыми данными без использования изображений
Проект предполагает использование моделей с максимальным количеством параметров для глубоких научных исследований