字节发布了其原生GUI智能体模型:UI-TARS-2,GUI、游戏、代码以及工具使用能力比UI-TARS-1.5提升了很多
UI-TARS-2是款一体化模型,它把操作GUI、游戏控制、写代码、工具使用等多个功能无缝集成,协同完成复杂任务
可以用它辅助办公,处理邮件、写报告、填表格,或者玩游戏、写代码、搜索信息等等
在Online-Mind2Web上得分88.2,OSWorld上47.5, WindowsAgentArena上50.6,AndroidWorld上73.3,优于Claude和OpenAI Agent
在游戏环境中,UI-TARS-2在15个游戏套件中获得了59.8的平均标准化分数,相当于人类水平的60%
从演示效果看,它可以清晰理解指令搜索信息并构建网站,网站基本可用,设计和交互有点单一
UI-TARS-1.5是开源的,UI-TARS-2还没开源 论文:https://arxiv.org/pdf/2509.02544 演示页面:https://seed-tars.com/showcase/ui-tars-2/