复旦大学AgentGym-RL框架：小模型大智慧，AI智能体学会复杂任务长期规划-28资讯网—

复旦大学AgentGym-RL框架：小模型大智慧，AI智能体学会复杂任务长期规划

2025-09-23 11:20:44 AI 141观看

摘要复旦大学研究团队近期在人工智能训练领域取得重大突破，开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程，成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。

复旦大学研究团队近期在人工智能训练领域取得重大突破，开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程，成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。这项成果已发表在arXiv平台，开源代码和数据集同步在GitHub公开。

传统AI训练存在显著局限：多数系统只能处理单次交互的简单任务，面对需要多步骤规划的复杂场景时表现欠佳。研究团队形象地比喻，现有AI就像只会背书的学生，缺乏真正的理解和创新能力。在需要持续互动的任务中，这些系统往往因训练不稳定而崩溃，如同初学者同时学习驾驶和导航般手忙脚乱。

AgentGym-RL框架创造性地设计了五大训练环境，构建起AI的"虚拟游乐园"。网页导航环境模拟真实网站交互，要求AI完成购物、论坛管理等任务；深度搜索环境训练信息检索能力，需整合多个信息源得出结论；数字游戏环境采用文本版Minecraft，考验策略规划和资源管理；具身任务环境通过虚拟空间导航，测试空间推理能力；科学任务环境则专注实验设计和数据分析。

研究团队开发的ScalingInter-RL训练方法堪称框架核心。该方法采用渐进式策略，初期限制AI与环境的交互次数，使其专注掌握基础技能，如同教练先让学员在空旷场地熟悉驾驶。随着训练深入，逐步增加交互复杂度，鼓励探索更高级策略。这种"先易后难"的模式有效解决了传统强化学习中的探索-利用平衡难题。

实验数据显示，经过AgentGym-RL训练的70亿参数模型性能提升达33.65个百分点。在网页导航任务中，该模型准确率达26%，超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任务表现更为突出，取得38.25分的整体得分，接近顶级开源模型DeepSeek-R1-0528的40.25分。在数字游戏最高难度级别，该模型是少数获得非零分数的系统之一。

研究团队发现，增加测试时的计算资源能显著提升模型表现。当交互回合数从2次增加到30次时，模型准确率稳步上升；并行采样次数从1次增至64次，成功率提升最高达7.05个百分点。这表明，对于AI智能体而言，战略性地投入更多计算资源进行推理，比单纯增加模型参数更有效。

算法比较实验揭示了训练方法的重要性。GRPO算法在多个任务中表现优于REINFORCE++，使用GRPO训练的30亿参数模型性能甚至超过使用REINFORCE++训练的70亿参数模型。研究还发现，训练初期严格限制交互次数能确保稳定性，后期逐步放开则有助于学习复杂策略，这种动态调整策略取得了最佳效果。

案例分析生动展示了训练成果。在网页导航任务中，经过强化学习的模型遇到"页面未找到"错误时，会主动回退到主页使用搜索功能，而基础模型则陷入无效点击循环。具身导航任务中，训练后的模型能系统性探索环境，遇到阻碍时选择替代路径，基础模型则常在已探索区域徘徊。

环境结构对学习效果的影响研究带来重要启示。在规则明确的模拟环境中，如数字游戏和科学实验，强化学习效果最为显著，模型得分提升幅度接近50个百分点。而在更开放的网页导航和深度搜索环境中，提升幅度相对温和。这表明训练初期应优先选择结构化环境，逐步引入复杂场景。

这项研究不仅在技术上取得突破，更体现了方法创新的重要性。通过渐进式训练和多样化环境设计，小规模模型也能获得强大能力。开源框架的发布为全球研究者提供了研究基础，促进了AI智能体技术的普及。研究显示，中国在AI基础研究领域的创新能力正不断提升，为国际AI社区贡献了新的智慧。

对技术细节感兴趣的读者可访问项目GitHub页面获取完整代码和数据集，或查阅arXiv平台上的完整论文（编号：arXiv:2509.08755v1）。这项研究将推动AI从简单问答向真正理解复杂任务、制定长期计划的智能伙伴发展，在网页操作、信息搜索、科学研究等领域展现广阔应用前景。

更多>同类资讯Meta实验室新突破：AI模型开启"自我对弈"模式，不依赖数据也能持续进化09-23联发科天玑9500首推双NPU架构，让AI常驻手机开启主动服务新体验09-23DeepSeek-V3.1升级至Terminus版优化语言一致性及Agent能力09-23斯坦福等高校联手：用LMEnt套件追踪AI语言模型知识学习轨迹09-23AI搜索的数学边界：当最强大模型遇上"简单问题"的隐秘困局09-23中科院团队创新CARVE法：破解AI视觉“分心”难题，助模型精准聚焦09-23Plaud携三款AI纪要新品入局大陆市场，多模态交互与长续航成亮点09-23DeepSeek线上模型升级至V3.1-Terminus，输出更稳Agent能力再提升09-23DeepSeek-V3.1升级至V3.1-Terminus：语言更一致，代理更强大，输出更稳定09-23上海人工智能实验室牵头！科学智能战略科技力量联盟正式成立09-23DeepSeek-V3.1-Terminus发布：修复Bug，编程与搜索智能体能力再升级09-23科学智能战略科技力量联盟成立共探AI赋能多学科创新发展路径09-23中国电信引领6G新突破：首个6G计费项目获3GPP正式批准09-23DeepSeek-V3.1-Terminus更新登场！修复关键Bug，Agent能力跃升，V4还会远吗？09-23百度智能云千帆开源Qianfan-VL视觉模型，多尺寸适配，全自研芯片赋能高效计算09-23点击查看更多 +全站最新