在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的通用具身基座模型于近日由智元机器人公司正式发布。这款模型以其创新的Vision-Language-Latent-Action(ViLLA)框架为核心,标志着机器人在理解和执行人类指令方面迈出了重要一步。
GO-1的核心竞争力在于其ViLLA框架,该框架结合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,通过吸收互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则进一步细分为隐动作专家模型和动作专家模型,前者通过人类操作和跨本体操作视频的学习,使模型能够理解并执行复杂动作;后者则利用高质量的仿真数据和真机数据,确保动作的精确执行。
GO-1展现了五大显著特点:采训推一体化、小样本快速泛化、一脑多形、持续进化以及人类视频学习能力。这些特点使得GO-1能够在不同场景下迅速适应并执行任务,大大降低了后训练成本。例如,在极少数据甚至零样本的情况下,GO-1仍能泛化到新场景和新任务中。
为了构建GO-1,智元机器人采用了数字金字塔模型。底层基于互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。随后是互联网上的大规模人类操作和跨本体视频,帮助机器人学习各种动作模式。再上一层是仿真数据,用于增强泛化性,使机器人能够适应不同场景和物体。而金字塔的顶层则是高质量的真机示教数据,用于训练精准动作执行。
在实际应用中,用户只需通过简单的语言指令,如“挂衣服”,GO-1就能迅速理解并执行任务。这一过程包括理解指令含义、拆解任务环节、识别物体和环境,并最终精确完成任务。这种能力得益于ViLLA框架中的隐式动作标记预测,它有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。
GO-1的应用场景广泛,从家庭生活中的倒水、烤吐司等日常任务,到商务会议中的拿饮料、拿苹果等简单指令,再到活动现场的检票、发放物料等工作,GO-1都能轻松应对。通过数据回流系统,GO-1还能从实际执行中遇到的问题数据中持续学习进化,不断提升其执行任务的能力。
智元机器人还预告了未来几个月将推出基于强化学习的仿真模型,以及新的人形机器人。GO-1的成功发布,不仅展示了智元机器人在具身智能领域的深厚积累,也为机器人技术的未来发展指明了方向。随着GO-1等通用具身基座大模型的广泛应用,机器人将逐渐走向更多不同场景,适应多变的真实世界,为人类生活带来更多便利。
本文链接:http://www.28at.com/showinfo-45-11420-0.html智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。