苹果论文展示Ferret-UI大语言模型：可深度理解屏幕信息内容-28资讯网—

苹果论文展示Ferret-UI大语言模型：可深度理解屏幕信息内容

2024-04-11 08:58:24 手机 347观看

摘要近日，苹果发布研究论文，展示了名叫“Ferret-UI”的多模态大语言模型。根据论文介绍，Ferret-UI模型针对目前MLLMs模型（多模态大语言模型）无法有效理解移动应用程序在屏幕上显示的内容这一问题，做出了针对性的调整。为了训练

近日，苹果发布研究论文，展示了名叫“Ferret-UI”的多模态大语言模型。

根据论文介绍，Ferret-UI模型针对目前MLLMs模型（多模态大语言模型）无法有效理解移动应用程序在屏幕上显示的内容这一问题，做出了针对性的调整。

为了训练Ferret-UI，苹果收集了大量初级用户界面任务的训练样本，如图标识别、查找文本和小部件列表。

这些样本的格式都是按照带有区域注释的指令来设计的，以便于精确引用和接地。

同时，为了增强模型的推理能力，苹果进一步编制了高级任务数据集，包括详细描述、感知/交互对话和功能推理。

这使得Ferret-UI相较目前的GPT-4V等MLLMs模型，在理解应用程序在屏幕上显示的内容时，有着显著的优势。

本文链接：http://www.28at.com/showinfo-22-82548-0.html苹果论文展示Ferret-UI大语言模型：可深度理解屏幕信息内容

声明：本网页内容旨在传播知识，不代表本站观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

显示全文

最新热点