在人工智能领域,大型语言模型(LLM)正通过结合任务提示与强化学习(RL)技术,在复杂推理任务上取得显著进展。Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出卓越的推理能力。然而,这一成功并未能在所有基础模型系列中轻松复制,尤其是在Llama系列模型上。kwD28资讯网——每日最新资讯28at.com
OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在竞赛级数学问题上通过大规模强化学习取得了重大突破,推动了对于小型模型(参数少于千亿)强化学习能力的探索。但这些进展大多局限于Qwen模型系列,难以在Llama等模型上重现。预训练流程的缺乏透明度,使得理解预训练如何影响强化学习的扩展变得颇具挑战性。一些非传统研究发现,一次性提示可以增强Qwen的推理能力,但对Llama模型效果有限。尽管OpenWebMath、MathPile等项目致力于构建高质量的数学预训练语料库,但其规模依然有限。kwD28资讯网——每日最新资讯28at.com
上海交通大学的研究人员针对Qwen和Llama模型,深入探究了中期训练策略对强化学习动态的影响。他们发现,高质量的数学语料库,如MegaMath-Web-Pro,能够同时提升基础模型和强化学习的效果。使用问答式数据,特别是包含长链式推理(Chain-of-Thought, CoT)的数据,可以进一步增强强化学习的效果。然而,长CoT也会在强化学习训练中引入冗长性和不稳定性。研究还发现,在中期训练中应用扩展可以提升下游强化学习的性能。kwD28资讯网——每日最新资讯28at.com
基于这些发现,研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略。他们首先使用2000亿个token训练基础模型,然后在三个以CoT为中心的分支上使用200亿个token进行训练。这一策略成功生成了具有强大强化学习兼容性的OctoThinker模型。kwD28资讯网——每日最新资讯28at.com
在强化学习配置和基准评估方面,研究人员使用MATH8K数据集进行训练提示,配置包括全局训练批次大小128、每个查询16个rollout响应以及PPO最小批次大小64。实验在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上进行。在评估中,基础语言模型采用少样本提示,而强化学习调优模型则在GSM8K、MATH500、OlympiadBench和AMC23等指标任务上采用零样本提示。kwD28资讯网——每日最新资讯28at.com
在强化学习训练期间,Qwen模型的响应长度持续增加并保持在合理范围内,而Llama模型则表现出异常行为,平均响应长度飙升至4096个token。评估结果显示,强化学习调优后的Qwen2.5-3B在各个基准测试中均有所提升,而Llama-3.2-3B的提升则微乎其微。kwD28资讯网——每日最新资讯28at.com
OctoThinker模型在强化学习兼容性方面表现优异。在13个数学基准测试中,每个OctoThinker分支都比原始Llama基础模型提升了10%-20%,并且在所有规模的稳定阶段模型上都取得了持续提升。OctoThinker-Zero系列在强化学习扩展过程中展现出多样化的思维行为,其中OctoThinker-Long变体表现尤为出色。在比较三个3B规模基础模型时,OctoThinker-Long-3B的表现优于原始Llama-3.2-3B模型,并与以强大推理能力和广泛预训练而闻名的Qwen2.5-3B模型达到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑战性的基准测试中。kwD28资讯网——每日最新资讯28at.com
举报 0收藏 0打赏 0分享 0 更多>同类资讯MIT新研究:AI写作工具使用或致大脑活跃度下滑07-03SciArena平台亮相:科研人员亲测,大语言模型科学文献任务表现大比拼07-03谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平07-03荣耀总裁方飞:苹果入局折叠屏,是激励也是新起点07-03OpenAI坚持英伟达与AMD,暂不全面采用谷歌TPU芯片07-03Crunchyroll新动画字幕出错,疑似AI生成引热议,观众呼吁保证创作质量07-03

三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭现在的手游和应用不断升级,对配置的要求越来越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,进一步优化性能,提升新机体验。新机也被官方称为三星超轻薄折叠旗舰,看来今年的新折叠屏不断追求轻薄,甚至是与直板机…07-03

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5采用全新AI交互方式,以更轻薄的折叠旗舰形态与行业领先的AI智能体实力,释放PC级生产力,开启智能交互体验的全新想象,用科技拓宽一小时的生命宽度,带来一辈子的温暖陪伴。荣耀正式宣布支持MC…07-03

中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿07-03

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版07-03

荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02

荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02

荣耀Magic V5评测:轻薄新巅峰,全能AI折叠屏旗舰重塑标准在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02

荣耀Magic V5震撼登场:纤薄新纪录,满血配置,售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02

荣耀Magic V5深度评测:轻薄新标杆,AI折叠屏的全面进化07-02点击查看更多 +
全站最新
2025云手机市场风向:蜂窝云手机以高性价比全场景方案领跑

2025年云手机推荐:五大品牌性能比拼,性价比之选揭晓

宇宙信使:揭秘玻璃陨石的奥秘与魅力

2025上半年机票均价740元,暑运旺季来临价格上扬至839元

美波音737客机飞行中襟翼掉落 疑似坠入居民区车道

美波音737客机飞行中襟翼掉落 疑似坠入居民区车道
热门内容- 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
- 马斯克宣布Grok 4大模型即将面世,或专为编程打造
- 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
- 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
- 苹果AI「Apple Intelligence」国行版,终于要来了吗?
- QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
- 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
- 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
- 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
- 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
- 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
- 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
- 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
- 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
- 《Artificial》今夏开机,揭秘OpenAI 2023年CEO罢免又复职风波
本栏最新
三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片

中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版

荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆

荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起