【芯片测试】:8. Test Program 执行流程与状态机
2026/5/24 5:22:27
【免费下载链接】UI-TARS-7B-SFT项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-7B-SFT
在最新的ScreenSpot Pro基准测试中,UI-TARS-7B-SFT以35.7%的平均准确率脱颖而出,相比传统模块化框架提升了42.9%。该模型在网页元素识别方面达到了93.6%的准确率,在动态加载内容场景下相比GPT-4o提升了5.9个百分点,展现了在GUI自动化领域的显著优势。
| 评估维度 | UI-TARS-7B-SFT | GPT-4o | Claude 3.5 | 行业平均 |
|---|---|---|---|---|
| 视觉理解 | 79.7 | 78.5 | 78.2 | 73.6 |
| 元素定位 | 93.6 | 87.7 | 90.4 | 82.3 |
| 多步任务 | 24.6 | 15.2 | 14.9 | 12.8 |
| 跨平台兼容 | 88.4 | 81.4 | 79.1 | 67.5 |
UI-TARS-7B-SFT采用单一视觉语言模型架构,实现了从像素输入到操作输出的完整闭环。这种设计消除了传统多模块拼接带来的数据转换损耗,使响应延迟降低至876ms,相比分布式架构提升了62%。
| 模型 | VisualWebBench | WebSRC | SQAshort |
|---|---|---|---|
| Qwen2-VL-7B | 73.3 | 81.8 | 84.9 |
| GPT-4o | 78.5 | 87.7 | 82.3 |
| Claude-3.5-Sonnet | 78.2 | 90.4 | 83.1 |
| UI-TARS-7B-SFT | 79.7 | 93.6 | 87.7 |
| 方法 | OSWorld (在线) | AndroidWorld (在线) |
|---|---|---|
| GPT-4o | 5.0 | 34.5 |
| Claude Computer-Use | 14.9 | 27.9 |
| UI-TARS-7B-SFT | 17.7 | 33.0 |
| UI-TARS-72B-SFT | 18.8 | 46.6 |
| 模型规格 | 最低配置 | 推荐配置 | 适用场景 |
|---|---|---|---|
| 2B模型 | 8GB RAM + i5 | 16GB RAM + RTX 3060 | 移动端应用、轻量自动化 |
| 7B-SFT模型 | 16GB RAM + RTX 3060 | 32GB RAM + RTX 4090 | 企业级桌面应用、测试自动化 |
| 72B模型 | A100 40GB | A100 80GB x2 | 复杂业务流程、多系统集成 |
git clone https://gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-7B-SFT cd UI-TARS-7B-SFT pip install -r requirements.txt python app.py --model-path ./models --port 8000UI-TARS-7B-SFT作为新一代GUI自动化AI智能体,不仅在技术架构上实现了重大突破,更在实际应用中展现出显著的商业价值。其端到端的单一模型设计、跨平台的精准操作能力以及分层推理决策机制,为企业在数字化转型过程中提供了强有力的技术支撑。随着模型在更多场景的深度应用,UI-TARS将继续推动GUI自动化技术向前发展,为各行各业带来更高效、更智能的交互体验。
【免费下载链接】UI-TARS-7B-SFT项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-7B-SFT
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考