苹果论文展示Ferret-UI大语言模型:可深度理解屏幕信息内容
2024-04-11 08:58:24 手机 163观看
摘要 近日,苹果发布研究论文,展示了名叫“Ferret-UI”的多模态大语言模型。根据论文介绍,Ferret-UI模型针对目前MLLMs模型(多模态大语言模型)无法有效理解移动应用程序在屏幕上显示的内容这一问题,做出了针对性的调整。为了训练

近日,苹果发布研究论文,展示了名叫“Ferret-UI”的多模态大语言模型。SUi28资讯网——每日最新资讯28at.com

SUi28资讯网——每日最新资讯28at.com

根据论文介绍,Ferret-UI模型针对目前MLLMs模型(多模态大语言模型)无法有效理解移动应用程序在屏幕上显示的内容这一问题,做出了针对性的调整。SUi28资讯网——每日最新资讯28at.com

为了训练Ferret-UI,苹果收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。SUi28资讯网——每日最新资讯28at.com

这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。SUi28资讯网——每日最新资讯28at.com

同时,为了增强模型的推理能力,苹果进一步编制了高级任务数据集,包括详细描述、感知/交互对话和功能推理。SUi28资讯网——每日最新资讯28at.com

这使得Ferret-UI相较目前的GPT-4V等MLLMs模型,在理解应用程序在屏幕上显示的内容时,有着显著的优势。SUi28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-82548-0.html苹果论文展示Ferret-UI大语言模型:可深度理解屏幕信息内容

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:用户反馈佩戴Vision Pro后出现健康问题:头痛、颈部酸痛等

下一篇:2024中国边缘计算20强重磅发布!华为第一

最新热点