复旦大学AgentGym-RL框架:小模型大智慧,AI智能体学会复杂任务长期规划
2025-09-23 11:20:44 AI 12观看
摘要复旦大学研究团队近期在人工智能训练领域取得重大突破,开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程,成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。

复旦大学研究团队近期在人工智能训练领域取得重大突破,开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程,成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。这项成果已发表在arXiv平台,开源代码和数据集同步在GitHub公开。fEF28资讯网——每日最新资讯28at.com

传统AI训练存在显著局限:多数系统只能处理单次交互的简单任务,面对需要多步骤规划的复杂场景时表现欠佳。研究团队形象地比喻,现有AI就像只会背书的学生,缺乏真正的理解和创新能力。在需要持续互动的任务中,这些系统往往因训练不稳定而崩溃,如同初学者同时学习驾驶和导航般手忙脚乱。fEF28资讯网——每日最新资讯28at.com

AgentGym-RL框架创造性地设计了五大训练环境,构建起AI的"虚拟游乐园"。网页导航环境模拟真实网站交互,要求AI完成购物、论坛管理等任务;深度搜索环境训练信息检索能力,需整合多个信息源得出结论;数字游戏环境采用文本版Minecraft,考验策略规划和资源管理;具身任务环境通过虚拟空间导航,测试空间推理能力;科学任务环境则专注实验设计和数据分析。fEF28资讯网——每日最新资讯28at.com

研究团队开发的ScalingInter-RL训练方法堪称框架核心。该方法采用渐进式策略,初期限制AI与环境的交互次数,使其专注掌握基础技能,如同教练先让学员在空旷场地熟悉驾驶。随着训练深入,逐步增加交互复杂度,鼓励探索更高级策略。这种"先易后难"的模式有效解决了传统强化学习中的探索-利用平衡难题。fEF28资讯网——每日最新资讯28at.com

实验数据显示,经过AgentGym-RL训练的70亿参数模型性能提升达33.65个百分点。在网页导航任务中,该模型准确率达26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任务表现更为突出,取得38.25分的整体得分,接近顶级开源模型DeepSeek-R1-0528的40.25分。在数字游戏最高难度级别,该模型是少数获得非零分数的系统之一。fEF28资讯网——每日最新资讯28at.com

研究团队发现,增加测试时的计算资源能显著提升模型表现。当交互回合数从2次增加到30次时,模型准确率稳步上升;并行采样次数从1次增至64次,成功率提升最高达7.05个百分点。这表明,对于AI智能体而言,战略性地投入更多计算资源进行推理,比单纯增加模型参数更有效。fEF28资讯网——每日最新资讯28at.com

算法比较实验揭示了训练方法的重要性。GRPO算法在多个任务中表现优于REINFORCE++,使用GRPO训练的30亿参数模型性能甚至超过使用REINFORCE++训练的70亿参数模型。研究还发现,训练初期严格限制交互次数能确保稳定性,后期逐步放开则有助于学习复杂策略,这种动态调整策略取得了最佳效果。fEF28资讯网——每日最新资讯28at.com

案例分析生动展示了训练成果。在网页导航任务中,经过强化学习的模型遇到"页面未找到"错误时,会主动回退到主页使用搜索功能,而基础模型则陷入无效点击循环。具身导航任务中,训练后的模型能系统性探索环境,遇到阻碍时选择替代路径,基础模型则常在已探索区域徘徊。fEF28资讯网——每日最新资讯28at.com

环境结构对学习效果的影响研究带来重要启示。在规则明确的模拟环境中,如数字游戏和科学实验,强化学习效果最为显著,模型得分提升幅度接近50个百分点。而在更开放的网页导航和深度搜索环境中,提升幅度相对温和。这表明训练初期应优先选择结构化环境,逐步引入复杂场景。fEF28资讯网——每日最新资讯28at.com

这项研究不仅在技术上取得突破,更体现了方法创新的重要性。通过渐进式训练和多样化环境设计,小规模模型也能获得强大能力。开源框架的发布为全球研究者提供了研究基础,促进了AI智能体技术的普及。研究显示,中国在AI基础研究领域的创新能力正不断提升,为国际AI社区贡献了新的智慧。fEF28资讯网——每日最新资讯28at.com

对技术细节感兴趣的读者可访问项目GitHub页面获取完整代码和数据集,或查阅arXiv平台上的完整论文(编号:arXiv:2509.08755v1)。这项研究将推动AI从简单问答向真正理解复杂任务、制定长期计划的智能伙伴发展,在网页操作、信息搜索、科学研究等领域展现广阔应用前景。fEF28资讯网——每日最新资讯28at.com

   更多>同类资讯Meta实验室新突破:AI模型开启"自我对弈"模式,不依赖数据也能持续进化09-23联发科天玑9500首推双NPU架构,让AI常驻手机开启主动服务新体验09-23DeepSeek-V3.1升级至Terminus版 优化语言一致性及Agent能力09-23斯坦福等高校联手:用LMEnt套件追踪AI语言模型知识学习轨迹09-23AI搜索的数学边界:当最强大模型遇上"简单问题"的隐秘困局09-23中科院团队创新CARVE法:破解AI视觉“分心”难题,助模型精准聚焦09-23Plaud携三款AI纪要新品入局大陆市场,多模态交互与长续航成亮点09-23DeepSeek线上模型升级至V3.1-Terminus,输出更稳Agent能力再提升09-23DeepSeek-V3.1升级至V3.1-Terminus:语言更一致,代理更强大,输出更稳定09-23上海人工智能实验室牵头!科学智能战略科技力量联盟正式成立09-23DeepSeek-V3.1-Terminus发布:修复Bug,编程与搜索智能体能力再升级09-23科学智能战略科技力量联盟成立 共探AI赋能多学科创新发展路径09-23中国电信引领6G新突破:首个6G计费项目获3GPP正式批准09-23DeepSeek-V3.1-Terminus更新登场!修复关键Bug,Agent能力跃升,V4还会远吗?09-23百度智能云千帆开源Qianfan-VL视觉模型,多尺寸适配,全自研芯片赋能高效计算09-23点击查看更多 +全站最新​9月狭义乘用车零售预计达215万辆,新能源车渗透率或超58%引关注​​9月狭义乘用车零售预计达215万辆,新能源车渗透率或超58%引关注​6.88万起极狐T1实测:空间越级配置足,小电车市场杀出“全能王”?6.88万起极狐T1实测:空间越级配置足,小电车市场杀出“全能王”?​雷军官宣小米17系列9月25日发布,卢伟冰称产品力跨代升级且对标iPhone17​​雷军官宣小米17系列9月25日发布,卢伟冰称产品力跨代升级且对标iPhone17​​小米17系列9月25日发布在即,雷军年度演讲《改变》将揭秘芯片与汽车故事​​小米17系列9月25日发布在即,雷军年度演讲《改变》将揭秘芯片与汽车故事​​雷军宣布:9月25日小米17系列发布,同期将举办第6次年度演讲聊芯片与汽车故事​​雷军宣布:9月25日小米17系列发布,同期将举办第6次年度演讲聊芯片与汽车故事​小米SU7标准版11.7万辆召回:OTA升级背后的智能驾驶安全与行业新挑战小米SU7标准版11.7万辆召回:OTA升级背后的智能驾驶安全与行业新挑战热门内容
  • 寒武纪回应订单不实传闻:产品多行业部署,存货增长因云端备货
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果加速AI布局,或收购两家法国AI初创企业
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵
  • 国金证券:A股第三轮重估脚步临近,三类资产投资方向值得关注
  • 苹果AI布局加速,或将斥巨资收购欧洲两大AI初创企业
  • 18岁涂津豪:从DeepSeek实习生到Nature封面作者,以少年之力叩响AI新章
  • WAVE SUMMIT大会新动态:文心大模型X1.1上线,多项能力显著跃升
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • 华为Mate系列2025年选购指南:三款高性价比机型技术解析与场景适配
  • ${亚马逊发布"2025产品创新出海品牌五十强":出口跨境电商规模达2.15万亿
本栏最新第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注华为全联接大会2025启幕,发布全球最强算力超节点与集群华为全联接大会2025启幕,发布全球最强算力超节点与集群有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来

本文链接:http://www.28at.com/showinfo-45-27964-0.html复旦大学AgentGym-RL框架:小模型大智慧,AI智能体学会复杂任务长期规划

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:Orange Research DivMerge技术:智能拼装AI模型,解锁多任务处理新境界

下一篇:Meta实验室新突破:AI模型开启"自我对弈"模式,不依赖数据也能持续进化

最新热点