当人类走进便利店寻找特定饮料时,即便货架上商品琳琅满目,我们也能迅速锁定目标。这种看似简单的视觉定位能力,对人工智能而言却是一道难题。中国科学院计算技术研究所的研究团队针对这一挑战,提出了一种名为CARVE的创新解决方案,有效提升了AI在复杂场景中的视觉推理能力。
研究团队发现,现有AI视觉语言模型在处理复杂图像时,注意力容易分散。就像人在嘈杂环境中难以集中精神一样,AI面对包含大量视觉元素的图片时,往往会被无关信息干扰,导致任务执行效率下降。这种注意力分散的程度与图像的视觉复杂度密切相关,研究团队通过量化分析证实,图像的纹理复杂度和颜色复杂度越高,AI的注意力就越难以集中。
CARVE方法的核心在于构建了一种对比注意力机制。该方法不需要对现有AI模型进行重新训练,而是通过设计两种不同的观察指令来引导模型。首先让AI以通用指令(如"描述图片")观察图像,此时模型的注意力主要受图像本身特征影响;再让AI以具体任务指令(如"找出红色标签的瓶子")观察同一图像,此时注意力会结合任务需求进行调整。通过对比这两次注意力分布的差异,CARVE能够准确识别出与任务真正相关的视觉区域。
研究团队从数学角度证明了这种对比机制的有效性。他们发现AI的注意力分布可以分解为两个独立因素的乘积:一个是完全由图像视觉特征决定的"视觉噪音因子",另一个是由任务需求决定的"语义信号因子"。在通用指令下,语义信号因子趋于均匀分布,注意力主要由视觉噪音主导;而在具体任务指令下,语义信号因子会在相关区域显著增强。CARVE通过简单的数学运算,成功分离出这两个因子,有效抑制了视觉噪音的干扰。
实验结果显示,CARVE方法在多个标准测试集上均取得了显著成效。特别是在处理能力有限的开源模型时,性能提升幅度最高达到75%。以LLAVA1.5-7B模型为例,在专门测试复杂场景小目标定位能力的V*数据集上,其准确率从38.7%提升至66.5%,提升幅度达71.83%。在需要识别图像中文字信息的TextVQA数据集上,同一模型的准确率也从47.8%提升至58.2%。
与其他视觉增强方法的对比测试进一步验证了CARVE的优势。在TextVQA数据集上,CARVE以58.2%的准确率领先于所有对比方法,包括基于SAM分割的方法(49.42%)、YOLO目标检测方法(48.84%)和CLIP视觉-语言匹配方法(48.55%)。虽然CARVE的处理时间(1.34秒/张)略长于YOLO等快速方法,但显著快于需要复杂分割的SAM方法(3.33秒/张),且无需任何模型训练,具有更好的实用性。
研究团队深入分析了CARVE的工作机制,发现使用网络深层注意力信息比浅层更有效,这与AI注意力在不同网络层次的演化规律一致。在浅层网络中,AI的注意力呈现全局扫描特征;随着网络加深,注意力逐渐聚焦到关键区域。CARVE通过对比机制,帮助模型在网络深层实现更有效的注意力收敛。
CARVE方法展现出了良好的鲁棒性。研究测试了不同的图像掩码生成参数,发现在保留图像20%-60%区域、选择2-3个主要区域的设置下,模型性能提升最为稳定。过度激进的掩码策略(如只保留20%以下区域或仅选择一个区域)反而会导致性能下降,因为可能丢失重要视觉信息。
尽管CARVE取得了显著进展,但研究团队也指出了其局限性。该方法会增加一定的计算开销,虽然通过早期终止推理和注意力缓存等优化策略,计算效率已得到提升,但在实时应用场景中仍需进一步优化。CARVE的效果依赖于通用指令的选择,研究团队通过实验确定了最优指令,但在不同语言和文化背景下可能需要调整。对于极端复杂的场景,如包含数百个小物体的密集图像,CARVE可能仍需结合其他技术手段。
这项研究为提升AI视觉推理能力提供了新思路。通过模拟人类"先浏览再聚焦"的视觉认知模式,CARVE帮助AI模型在复杂环境中更准确地定位关键信息。随着技术的不断完善,这类方法有望在医疗影像分析、辅助视觉系统、教育辅导等多个领域发挥重要作用,使AI的视觉理解能力更接近人类水平。
更多>同类资讯Plaud携三款AI纪要新品入局大陆市场,多模态交互与长续航成亮点09-23DeepSeek线上模型升级至V3.1-Terminus,输出更稳Agent能力再提升09-23DeepSeek-V3.1升级至V3.1-Terminus:语言更一致,代理更强大,输出更稳定09-23上海人工智能实验室牵头!科学智能战略科技力量联盟正式成立09-23DeepSeek-V3.1-Terminus发布:修复Bug,编程与搜索智能体能力再升级09-23科学智能战略科技力量联盟成立 共探AI赋能多学科创新发展路径09-23中国电信引领6G新突破:首个6G计费项目获3GPP正式批准09-23DeepSeek-V3.1-Terminus更新登场!修复关键Bug,Agent能力跃升,V4还会远吗?09-23百度智能云千帆开源Qianfan-VL视觉模型,多尺寸适配,全自研芯片赋能高效计算09-23人工智能投资新视角:大模型进阶智能体,场景化应用前景展望今天分享的是:人工智能专题:从大模型到智能体——人工智能+场景的投资展望 报告共计:31页 《人工智能专题:从大模型到智能体——人工智能+场景的投资展望》报告首先探讨“什么是真正的人工智能”,指出大语言模型如…09-23京东王竞凡:智能机器人高速发展,中国机器人市场2028年或达千亿来源:睿见Economy 9月16日-17日,聚合智能产业发展大会(2025)在武汉市举行,主题为“协同融合创新链产业链推动聚合智能产业发展”。 王竞凡指出,目前智能机器人处于一个前所未有的高速发展道路,智…09-23上海创智学院周年庆发布模速空间AI工作站 助力教育大模型终端化应用会上,学院正式发布标杆成果——模速空间AI工作站,该设备搭载上海“启创·InnoSpark”人工智能教育大模型,以“端侧算力+教育大模型+场景化应用”三位一体架构,为教育领域注入智能新动能。该工作站由英和智临…09-23国内AI大模型迈向“用起来”阶段,央(国)企集约共享大模型前景与挑战并存通信世界网消息(CWW)目前,国内AI大模型产业正从“百模大战”的“建起来”阶段,向“行业爆发”的“用起来”阶段过渡。权威机构发布的数据显示,2025年一季度国内大模型市场规模预计突破495亿元人民币,但AI…09-23百度智能云开源Qianfan-VL视觉模型,多尺寸适配+自研芯片助力多场景应用在 ScienceQA 等专业问答测试中,精准度表现突出;多模态任务如 RefCOCO 等,物体识别与关联能力优异;同时,在各类通用基准测试里,相较主流模型,整体表现也颇为亮眼,充分彰显出在视觉理解通用能力上…09-23工业互联网浪潮涌动 中国电信云网融合赋能工业智能化升级长期以来,中国电信立足自身优势,坚持以云网融合为核心抓手,在持续夯实工业智能底座、筑牢产业数字化根基的同时,不断加大科技创新力度,通过技术突破与模式创新,为工业企业提供全链条智能化解决方案,有效赋能工业生产全…09-23点击查看更多 +全站最新
9月狭义乘用车零售预计达215万辆,新能源车渗透率或超58%引关注
6.88万起极狐T1实测:空间越级配置足,小电车市场杀出“全能王”?
雷军官宣小米17系列9月25日发布,卢伟冰称产品力跨代升级且对标iPhone17
小米17系列9月25日发布在即,雷军年度演讲《改变》将揭秘芯片与汽车故事
雷军宣布:9月25日小米17系列发布,同期将举办第6次年度演讲聊芯片与汽车故事
小米SU7标准版11.7万辆召回:OTA升级背后的智能驾驶安全与行业新挑战热门内容
第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采
AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?
2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来
中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注
华为全联接大会2025启幕,发布全球最强算力超节点与集群
有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来
本文链接:http://www.28at.com/showinfo-45-27970-0.html中科院团队创新CARVE法:破解AI视觉“分心”难题,助模型精准聚焦
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。