Alltokens

ByteDance: UI-TARS 7B

BYBytedanceОбновлено: 22 июля 2025 г.

UI-TARS 7B от ByteDance — это специализированная мультимодальная модель, оптимизированная для управления графическими интерфейсами через зрение. Она эффективно работает с десктопными приложениями, веб-браузерами и мобильными системами благодаря обучению с подкреплением.

Использовать через API

Метрики

Вход

13 ₽/M

Выход

25 ₽/M

Контекст

128k tokens

Параметры

10

Релиз

22 июля 2025 г.

Поддерживаемые параметры

frequency_penaltylogit_biasmax_tokenspresence_penaltyrepetition_penaltyseedstoptemperaturetop_ktop_p

Технический обзор

UI-TARS-1.5 — это мультимодальный агент с поддержкой зрения и языка, оптимизированный для работы в графических пользовательских интерфейсах, включая рабочие столы компьютеров, веб-браузеры, мобильные системы и игры. Разработанная компанией ByteDance, модель базируется на архитектуре UI-TARS и использует обучение с подкреплением для логического вывода, что обеспечивает надежное планирование и выполнение действий в виртуальных средах. Модель демонстрирует лучшие в своем классе результаты в ряде тестов на интерактивность и привязку к интерфейсу, таких как OSworld, WebVoyager, AndroidWorld и ScreenSpot. Она также показывает стопроцентную завершаемость задач в различных играх на платформе Poki и превосходит предыдущие модели в качестве игрового агента в Minecraft. UI-TARS-1.5 поддерживает декомпозицию мыслей в процессе вывода и демонстрирует отличную масштабируемость: версия 1.5 значительно превосходит по производительности более ранние контрольные точки моделей на 72B и 7B параметров. На alltokens доступны различные конфигурации данной модели.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Модель

Для чего

UI-TARS 7B от ByteDance — это специализированная мультимодальная модель, оптимизированная для управления графическими интерфейсами через зрение. Она эффективно работает с десктопными приложениями, веб-браузерами и мобильными системами благодаря обучению с подкреплением.

Контекст

128k

Цена ₽

13 / 25

Для чего

Обладает схожим размером параметров и мультимодальными возможностями для обработки визуальных данных.

Контекст

262k

Цена ₽

19 / 19

Для чего

Обе модели поддерживают ввод текста и изображений, предлагая баланс между скоростью работы и качеством понимания контекста.

Контекст

128k

Цена ₽

10 / 25

Когда выбирать

  • Автоматизация действий в графических интерфейсах (GUI) и веб-браузерах
  • Разработка ИИ-агентов для управления мобильными приложениями и играми
  • Задачи, требующие анализа скриншотов с последующим выполнением текстовых команд

Когда не выбирать

  • Сложные математические вычисления или глубокий научный анализ данных
  • Написание объемных художественных текстов или ролевой отыгрыш
  • Работа исключительно с текстовыми данными без необходимости визуального распознавания

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru