中科院团队创新CARVE法：破解AI视觉“分心”难题，助模型精准聚焦-28资讯网—

中科院团队创新CARVE法：破解AI视觉“分心”难题，助模型精准聚焦

2025-09-23 11:21:03 AI 10观看

摘要当人类走进便利店寻找特定饮料时，即便货架上商品琳琅满目，我们也能迅速锁定目标。这种看似简单的视觉定位能力，对人工智能而言却是一道难题。中国科学院计算技术研究所的研究团队针对这一挑战，提出了一种名为CARVE的创新

当人类走进便利店寻找特定饮料时，即便货架上商品琳琅满目，我们也能迅速锁定目标。这种看似简单的视觉定位能力，对人工智能而言却是一道难题。中国科学院计算技术研究所的研究团队针对这一挑战，提出了一种名为CARVE的创新解决方案，有效提升了AI在复杂场景中的视觉推理能力。

研究团队发现，现有AI视觉语言模型在处理复杂图像时，注意力容易分散。就像人在嘈杂环境中难以集中精神一样，AI面对包含大量视觉元素的图片时，往往会被无关信息干扰，导致任务执行效率下降。这种注意力分散的程度与图像的视觉复杂度密切相关，研究团队通过量化分析证实，图像的纹理复杂度和颜色复杂度越高，AI的注意力就越难以集中。

CARVE方法的核心在于构建了一种对比注意力机制。该方法不需要对现有AI模型进行重新训练，而是通过设计两种不同的观察指令来引导模型。首先让AI以通用指令（如"描述图片"）观察图像，此时模型的注意力主要受图像本身特征影响；再让AI以具体任务指令（如"找出红色标签的瓶子"）观察同一图像，此时注意力会结合任务需求进行调整。通过对比这两次注意力分布的差异，CARVE能够准确识别出与任务真正相关的视觉区域。

研究团队从数学角度证明了这种对比机制的有效性。他们发现AI的注意力分布可以分解为两个独立因素的乘积：一个是完全由图像视觉特征决定的"视觉噪音因子"，另一个是由任务需求决定的"语义信号因子"。在通用指令下，语义信号因子趋于均匀分布，注意力主要由视觉噪音主导；而在具体任务指令下，语义信号因子会在相关区域显著增强。CARVE通过简单的数学运算，成功分离出这两个因子，有效抑制了视觉噪音的干扰。

实验结果显示，CARVE方法在多个标准测试集上均取得了显著成效。特别是在处理能力有限的开源模型时，性能提升幅度最高达到75%。以LLAVA1.5-7B模型为例，在专门测试复杂场景小目标定位能力的V*数据集上，其准确率从38.7%提升至66.5%，提升幅度达71.83%。在需要识别图像中文字信息的TextVQA数据集上，同一模型的准确率也从47.8%提升至58.2%。

与其他视觉增强方法的对比测试进一步验证了CARVE的优势。在TextVQA数据集上，CARVE以58.2%的准确率领先于所有对比方法，包括基于SAM分割的方法（49.42%）、YOLO目标检测方法（48.84%）和CLIP视觉-语言匹配方法（48.55%）。虽然CARVE的处理时间（1.34秒/张）略长于YOLO等快速方法，但显著快于需要复杂分割的SAM方法（3.33秒/张），且无需任何模型训练，具有更好的实用性。

研究团队深入分析了CARVE的工作机制，发现使用网络深层注意力信息比浅层更有效，这与AI注意力在不同网络层次的演化规律一致。在浅层网络中，AI的注意力呈现全局扫描特征；随着网络加深，注意力逐渐聚焦到关键区域。CARVE通过对比机制，帮助模型在网络深层实现更有效的注意力收敛。

CARVE方法展现出了良好的鲁棒性。研究测试了不同的图像掩码生成参数，发现在保留图像20%-60%区域、选择2-3个主要区域的设置下，模型性能提升最为稳定。过度激进的掩码策略（如只保留20%以下区域或仅选择一个区域）反而会导致性能下降，因为可能丢失重要视觉信息。

尽管CARVE取得了显著进展，但研究团队也指出了其局限性。该方法会增加一定的计算开销，虽然通过早期终止推理和注意力缓存等优化策略，计算效率已得到提升，但在实时应用场景中仍需进一步优化。CARVE的效果依赖于通用指令的选择，研究团队通过实验确定了最优指令，但在不同语言和文化背景下可能需要调整。对于极端复杂的场景，如包含数百个小物体的密集图像，CARVE可能仍需结合其他技术手段。

这项研究为提升AI视觉推理能力提供了新思路。通过模拟人类"先浏览再聚焦"的视觉认知模式，CARVE帮助AI模型在复杂环境中更准确地定位关键信息。随着技术的不断完善，这类方法有望在医疗影像分析、辅助视觉系统、教育辅导等多个领域发挥重要作用，使AI的视觉理解能力更接近人类水平。

更多>同类资讯Plaud携三款AI纪要新品入局大陆市场，多模态交互与长续航成亮点09-23DeepSeek线上模型升级至V3.1-Terminus，输出更稳Agent能力再提升09-23DeepSeek-V3.1升级至V3.1-Terminus：语言更一致，代理更强大，输出更稳定09-23上海人工智能实验室牵头！科学智能战略科技力量联盟正式成立09-23DeepSeek-V3.1-Terminus发布：修复Bug，编程与搜索智能体能力再升级09-23科学智能战略科技力量联盟成立共探AI赋能多学科创新发展路径09-23中国电信引领6G新突破：首个6G计费项目获3GPP正式批准09-23DeepSeek-V3.1-Terminus更新登场！修复关键Bug，Agent能力跃升，V4还会远吗？09-23百度智能云千帆开源Qianfan-VL视觉模型，多尺寸适配，全自研芯片赋能高效计算09-23人工智能投资新视角：大模型进阶智能体，场景化应用前景展望今天分享的是：人工智能专题：从大模型到智能体——人工智能+场景的投资展望报告共计：31页《人工智能专题：从大模型到智能体——人工智能+场景的投资展望》报告首先探讨“什么是真正的人工智能”，指出大语言模型如…09-23京东王竞凡：智能机器人高速发展，中国机器人市场2028年或达千亿来源：睿见Economy 9月16日-17日，聚合智能产业发展大会（2025）在武汉市举行，主题为“协同融合创新链产业链推动聚合智能产业发展”。王竞凡指出，目前智能机器人处于一个前所未有的高速发展道路，智…09-23上海创智学院周年庆发布模速空间AI工作站助力教育大模型终端化应用会上，学院正式发布标杆成果——模速空间AI工作站，该设备搭载上海“启创·InnoSpark”人工智能教育大模型，以“端侧算力+教育大模型+场景化应用”三位一体架构，为教育领域注入智能新动能。该工作站由英和智临…09-23国内AI大模型迈向“用起来”阶段，央（国）企集约共享大模型前景与挑战并存通信世界网消息（CWW）目前，国内AI大模型产业正从“百模大战”的“建起来”阶段，向“行业爆发”的“用起来”阶段过渡。权威机构发布的数据显示，2025年一季度国内大模型市场规模预计突破495亿元人民币，但AI…09-23百度智能云开源Qianfan-VL视觉模型，多尺寸适配+自研芯片助力多场景应用在 ScienceQA 等专业问答测试中，精准度表现突出；多模态任务如 RefCOCO 等，物体识别与关联能力优异；同时，在各类通用基准测试里，相较主流模型，整体表现也颇为亮眼，充分彰显出在视觉理解通用能力上…09-23工业互联网浪潮涌动中国电信云网融合赋能工业智能化升级长期以来，中国电信立足自身优势，坚持以云网融合为核心抓手，在持续夯实工业智能底座、筑牢产业数字化根基的同时，不断加大科技创新力度，通过技术突破与模式创新，为工业企业提供全链条智能化解决方案，有效赋能工业生产全…09-23点击查看更多 +全站最新