微软 OmniParser 作为一款独具特色的基于纯视觉的 GUI 智能体,能够精准解析和识别屏幕上可交互图标,此前与 GPT-4V 搭配时,其识别能力便得到显著增强,在行业内备受关注。
2 月 12 日,微软在官方网站正式发布了 OmniParser 的最新版本 ——V2.0。这一版本实现了重大突破,它能够将 OpenAI(4o /o1 /o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等多种模型,巧妙转化为可操控计算机的 AI 智能体。这意味着,开发者和用户能够借助更多不同类型的模型,拓展 AI 智能体的应用场景与功能边界。
与旧版本 V1 相比,OmniParser V2 在技术层面进行了深度优化。它采用了规模更为庞大的交互元素检测数据以及图标功能标题数据开展训练。如此一来,在检测较小的可交互 UI 元素时,新版本展现出了卓越的性能。不仅准确率得到大幅提升,推理速度也显著加快,延迟降低幅度高达 60%。
在高分辨率 Agent 基准测试 ScreenSpot Pro 中,V2 版本搭配 GPT-4o 的组合,准确率飙升至 39.6%,而 GPT-4o 原始状态下的准确率仅为 0.8%,对比之下,V2 版本的优势一目了然。
为了进一步推动 AI 智能体技术的发展,方便开发者更快地对不同智能体设置进行实验,微软还开源了 OmniTool。
本文链接:http://www.28at.com/showinfo-27-131395-0.html微软 OmniParser 升级至 V2.0
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。