近日,苹果发布研究论文,展示了名叫“Ferret-UI”的多模态大语言模型。
根据论文介绍,Ferret-UI模型针对目前MLLMs模型(多模态大语言模型)无法有效理解移动应用程序在屏幕上显示的内容这一问题,做出了针对性的调整。
为了训练Ferret-UI,苹果收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。
这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。
同时,为了增强模型的推理能力,苹果进一步编制了高级任务数据集,包括详细描述、感知/交互对话和功能推理。
这使得Ferret-UI相较目前的GPT-4V等MLLMs模型,在理解应用程序在屏幕上显示的内容时,有着显著的优势。
本文链接:http://www.28at.com/showinfo-22-82548-0.html苹果论文展示Ferret-UI大语言模型:可深度理解屏幕信息内容
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。