苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容
2024-04-11 17:24:58 AI 177观看
摘要 4 月 10 日消息,苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频

4 月 10 日消息,苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。lZu28资讯网——每日最新资讯28at.com

lZu28资讯网——每日最新资讯28at.com

以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。lZu28资讯网——每日最新资讯28at.com

只是现阶段 MLLMs 还无法有效理解移动应用程序,这主要有以下几个原因:lZu28资讯网——每日最新资讯28at.com

1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。lZu28资讯网——每日最新资讯28at.com

2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。lZu28资讯网——每日最新资讯28at.com

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题:lZu28资讯网——每日最新资讯28at.com

与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小,因此我们在 Ferret 的基础上加入了 "任意分辨率",以放大细节并利用增强的视觉功能。lZu28资讯网——每日最新资讯28at.com

我们精心收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。lZu28资讯网——每日最新资讯28at.com

为了增强模型的推理能力,我们进一步编制了高级任务数据集,包括详细描述、感知 / 交互对话和功能推理。lZu28资讯网——每日最新资讯28at.com

苹果在论文中表示相比较现有的 GPT-4V,以及其它 MLLMs 模型,Ferret-UI AI 模型更为优秀。lZu28资讯网——每日最新资讯28at.com

lZu28资讯网——每日最新资讯28at.com

lZu28资讯网——每日最新资讯28at.com

lZu28资讯网——每日最新资讯28at.com

lZu28资讯网——每日最新资讯28at.com

lZu28资讯网——每日最新资讯28at.com

附上参考地址lZu28资讯网——每日最新资讯28at.com

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMslZu28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3949-0.html苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:OpenAI推出视觉增强版GPT-4 Turbo模型,简化开发流程

下一篇:融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

最新热点