在通用机器人研发领域,视觉-语言-行动(VLA)模型被视为突破技术瓶颈的关键方向。然而现有主流方案如OpenVLA、RT-2等普遍存在空间感知缺陷,这些依赖二维RGB图像的模型在三维场景中常出现定位偏差,尤其在处理非结构化环境时,对物体深度和空间关系的判断能力显著不足。
针对这一行业痛点,原力灵机团队近日提出创新性的GeoVLA框架,通过构建双流协同机制实现三维几何感知能力的突破。该架构在保留视觉语言模型(VLM)预训练优势的基础上,创新性地引入点云嵌入网络(PEN)与空间感知动作专家(3DAE)两大核心模块,形成语义理解与空间感知的并行处理路径。这种解耦式设计使机器人既能"理解场景语义"又能"精准定位物体",有效解决了传统模型的空间失明问题。
技术实现层面,GeoVLA采用三流协同架构:语义理解流负责解析视觉语言信息,几何感知流通过点云数据构建三维空间模型,动作生成流则整合前两者输出进行决策。这种模块化设计不仅提升了系统可解释性,更通过端到端训练实现了各组件的动态优化。实验数据显示,在仿真环境中该框架的物体定位误差较传统方案降低62%,动作规划效率提升45%。
基准测试验证了技术突破的实质性进展。在LIBERO标准测试集上,GeoVLA以97.7%的任务成功率刷新纪录,较此前最优模型提升8.3个百分点。面对ManiSkill2物理仿真平台设置的复杂场景——包含动态障碍物、多视角干扰和形变物体等挑战,该系统仍保持89.4%的综合成功率。特别在处理透明材质、反光表面等传统难题时,其三维重建精度达到毫米级,展现出显著的技术优势。
真实场景测试进一步证实了系统的鲁棒性。在光照剧烈变化(100-10000lux动态范围)、机械臂负载波动(±30%额定载荷)等极端条件下,GeoVLA的决策稳定性较同类产品提升2.7倍。研究团队特别强调,这种跨场景适应能力源于点云网络的几何先验知识与语言模型的语义泛化能力的有机融合,使得系统既能处理已知场景,也能应对未见过的环境配置。
项目技术文档显示,GeoVLA已开源核心代码与训练框架,开发者可通过指定网址获取完整实现方案。该成果不仅为机器人操作任务提供了新的技术路径,其模块化设计更可扩展至自动驾驶、增强现实等领域,有望推动三维空间智能技术的规模化应用。
更多>同类资讯HBM市场格局生变:三星份额超美光,SK海力士仍稳坐头把交椅12-25昇思MindSpore发布HyperParallel架构 助力AI框架开启“超节点”新篇章12-25贵阳“银河太空舱”亮相:AI机器人协作,咖啡文化邂逅智慧新体验12-2525款蓝山可通过软、硬件升级实现尾灯小蓝灯功能12-2517亿!人形机器人突发重大收购12-25年末部分机器人日租价腰斩 最低降至一天200多元12-25解锁机器人的 3D 视觉:原力灵机推出 GeoVLA 框架,颠覆传统 VLA 模型!12-25告别按月订阅,1min.AI 推出终身全能计划,一站式接管创作全流程12-25优必选拟入主锋龙股份,协议转让加要约收购,产业协同前景几何?12-25
上海交大“致远一号”智算平台:以算力为翼,领航高校数智化新征程展望未来,上海交通大学将继续深化与华为等伙伴的战略合作,推动更多高校和区域加入创新生态,探索实时诊断模型、脑机接口等前沿应用,持续优化平台功能与服务,推动高校数智化转型,构建可持续、自进化的世界级AI应用生…12-25三星SK海力士上调HBM3E价格近20%,存储芯片概念股强势走高12-25破解AI转化难题:从科学发现到生产力的多维度突围路径12-25长城魏牌CEO宣布:23款蓝山高山OTA升级 新增多项功能25款蓝山可升级尾灯小蓝灯12-25魏建军:长城扎根保定不迁一线,2026CES将携多款新品亮相12-25黄仁勋访台积电催单AI芯片,台积电全球“火力全开”扩产能12-25点击查看更多 +全站最新
中网智达旗下助小创:以数字科技助力中小企业数字化转型与降本增效
上海交大“致远一号”智算平台:以算力为翼,领航高校数智化新征程
鸿蒙生态:开发者逐梦舞台,以科技之力绘就生活新精彩
李亚鹏被强制执行1381万
广州快手小额贷款公司增资至10亿 增幅100%
吉利等在天津成立创联投资合伙企业 出资额5040万热门内容
上海交大“致远一号”智算平台:以算力为翼,领航高校数智化新征程
华为携手上海交大 共筑“致远一号”智算平台 开启教育高质量发展新征程
69天跨越式发展!贵州铭智落地安顺 见证营商环境优化与产业新机遇
3000万辆里程碑:中国长安汽车以三大计划驱动,绘就智能低碳新蓝图
长城魏牌全新蓝山智能进阶版上市,27.58万起售,安全科技双升级
30万级家用SUV大比拼!全新蓝山智能进阶版与问界M7谁更胜一筹?
本文链接:http://www.28at.com/showinfo-45-28760-0.html原力灵机GeoVLA框架:赋予机器人3D视觉,突破传统VLA模型局限
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。