英伟达新突破:ProRL方法助力打造顶级1.5B参数推理AI模型
2025-06-05 19:07:41 AI 31观看
摘要近期,科技界传来一则引人注目的消息,英伟达研究团队在人工智能领域取得了重要突破。据科技媒体marktechpost报道,英伟达不仅推出了一种名为ProRL的强化学习方法,还成功开发出了目前全球顶尖的1.5B参数推理模型——Nemotro

近期,科技界传来一则引人注目的消息,英伟达研究团队在人工智能领域取得了重要突破。据科技媒体marktechpost报道,英伟达不仅推出了一种名为ProRL的强化学习方法,还成功开发出了目前全球顶尖的1.5B参数推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。EiL28资讯网——每日最新资讯28at.com

推理模型,作为专门设计的人工智能系统,其核心在于通过复杂的长链推理过程,得出最终的答案。这一技术在近年来备受关注,而强化学习在这一过程中的作用更是不可忽视。此前,DeepSeek和Kimi等团队已采用可验证奖励的强化学习方法(RLVR),推动了GRPO、Mirror Descent和RLOO等算法的发展。EiL28资讯网——每日最新资讯28at.com

然而,尽管强化学习在理论上被认为能够提升大型语言模型(LLM)的推理能力,但实际应用中却面临诸多挑战。现有研究表明,RLVR在pass@k指标上并未显著优于基础模型,这显示出推理能力的扩展存在局限性。当前的研究大多聚焦于数学等特定领域,导致模型过度训练,限制了其探索新领域的潜力。同时,强化学习的训练步数通常较短,往往仅数百步,这使得模型难以充分发展新的能力。EiL28资讯网——每日最新资讯28at.com

为了克服这些难题,英伟达研究团队推出了ProRL方法。他们不仅将强化学习的训练时间延长至超过2000步,还大大扩展了训练数据的范围,涵盖了数学、编程、STEM、逻辑谜题和指令遵循等多个领域,共计13.6万个样本。这一举措旨在提升模型的泛化能力,使其能够在不同领域都表现出色。EiL28资讯网——每日最新资讯28at.com

在ProRL方法的基础上,英伟达团队采用了verl框架和改进的GRPO方法,成功开发出了Nemotron-Research-Reasoning-Qwen-1.5B模型。这一模型在多项基准测试中均表现出色,超越了基础模型DeepSeek-R1-1.5B,甚至在某些方面优于更大的DeepSeek-R1-7B模型。EiL28资讯网——每日最新资讯28at.com

EiL28资讯网——每日最新资讯28at.com

测试结果显示,Nemotron-Research-Reasoning-Qwen-1.5B模型在数学领域实现了平均15.7%的提升,编程任务的pass@1准确率提高了14.4%,在STEM推理和指令遵循方面分别提升了25.9%和22.0%,逻辑谜题的奖励值更是提升了惊人的54.8%。这一系列数据充分展示了该模型在不同领域中的强大推理能力和泛化性能。EiL28资讯网——每日最新资讯28at.com

英伟达的这一突破无疑为人工智能领域带来了新的希望和可能。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来将有更多像Nemotron-Research-Reasoning-Qwen-1.5B这样的优秀模型涌现出来,为人类社会带来更多的便利和价值。EiL28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
三星高管详解Galaxy S25 Edge:超薄设计下电池续航仍可用一整天
三星高管详解Galaxy S25 Edge:超薄设计下电池续航仍可用一整天
微软博客预告片新称谓“Xbox PC”,或预示Xbox生态系统融合趋势?
微软博客预告片新称谓“Xbox PC”,或预示Xbox生态系统融合趋势?
Skullcandy新款Aviator 900 ANC头戴耳机:复古设计融合THX空间音频技术
Skullcandy新款Aviator 900 ANC头戴耳机:复古设计融合THX空间音频技术
尔英HX770-NAS主板亮相,支持多至12个SATA接口,专为NAS打造
尔英HX770-NAS主板亮相,支持多至12个SATA接口,专为NAS打造
宝马X5/X6/X7车型全面升级,动力多样化布局未来出行
宝马X5/X6/X7车型全面升级,动力多样化布局未来出行
《逆水寒》手游牵手可灵AI,图片秒变动图,游戏记录新玩法来袭!
《逆水寒》手游牵手可灵AI,图片秒变动图,游戏记录新玩法来袭!
热门内容
  • 夸克AI新升级:深度搜索赋能,信息获取更高效智能
  • 荣耀“鲲鹏”照片事件真相大白,造谣者道歉遭刑拘
  • 夸克AI新升级“深度搜索”,解锁高效获取信息新技能
  • 腾讯阿里AI to C战场“双吴”争霸,谁将问鼎AI搜索之巅?
  • 英伟达全球总部或将落户中国台湾,黄仁勋下周宣布这一重大决定?
  • 教育部新规:学生禁直接复制AI作业,强化独立思考与批判性思维
  • 联发科天玑9400e发布:天玑9300+升级版,蓝牙升级至6.0
  • TIOBE 5月编程语言榜:Python强势领跑,占比创历史新高
  • 中国GPU市场竞争激烈,英伟达独占7成,华为昇腾紧追其后!
  • 华为nova 14系列震撼登场!鸿蒙5直板机领衔,nova 14仅售2699元起
  • 华为Mate 40系列(5G)已支持5G-A网络,性能再升级!
  • 苹果高管预警:AI发展迅猛,iPhone未来十年或被淘汰?
  • 教育部新规:中小学分阶段用AI,严禁复制答案强化独立思考
  • 华为nova14 Ultra震撼登场!鸿蒙5系统加持,售价4199元起
  • vivo领跑!2025第18周中国手机份额华为小米紧追其后
本栏最新
2025年7月,天翼云息壤杯高校AI大赛,谁将问鼎AI巅峰?
2025年7月,天翼云息壤杯高校AI大赛,谁将问鼎AI巅峰?
Meta豪掷数十亿助力伊利诺伊核电站,延续至2047年运营
Meta豪掷数十亿助力伊利诺伊核电站,延续至2047年运营
TAE获1.5亿融资,谷歌等巨头助力,核聚变发电技术迎新突破?
TAE获1.5亿融资,谷歌等巨头助力,核聚变发电技术迎新突破?
谷歌CEO皮查伊:AI加大投入,工程师团队将持续扩招至2026年
谷歌CEO皮查伊:AI加大投入,工程师团队将持续扩招至2026年
AI押题高考,是备考神器还是心理安慰?
AI押题高考,是备考神器还是心理安慰?
中国移动基金携手中科类脑,共探类脑智能技术新蓝海
中国移动基金携手中科类脑,共探类脑智能技术新蓝海

本文链接:http://www.28at.com/showinfo-45-13486-0.html英伟达新突破:ProRL方法助力打造顶级1.5B参数推理AI模型

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:6月5日A股收盘:沪指微涨,成交额破万亿,数字哨兵领涨市场!

下一篇:2025年7月,天翼云息壤杯高校AI大赛,谁将问鼎AI巅峰?

最新热点