摘要据南华早报和彭博(Bloomberg)报道,深度求索(DeepSeek)与清华大学研究人员合作,开发出一种新的强化学习技术。该技术能够降低AI模型的训练成本,同时提升其性能。研究人员发布了一篇论文,详细探讨了如何通过延长推理时间来改善
据南华早报和彭博(Bloomberg)报道,深度求索(DeepSeek)与清华大学研究人员合作,开发出一种新的强化学习技术。该技术能够降低AI模型的训练成本,同时提升其性能。
研究人员发布了一篇论文,详细探讨了如何通过延长推理时间来改善大型语言模型(LLM)的回答准确度。在减少运算资源消耗的同时,这一技术能够提供更加贴近人类需求的答案。目前,大多数主流AI模型采用强化学习方法,通过模型与环境的交互以及奖励机制来完成学习。
在此次研究中,DeepSeek和清华大学设计出一种名为DeepSeek-GRM(生成式奖励模型;Generative Reward Modeling)的技术。该技术基于点状生成式奖励模型(pointwise generative reward modeling),能够以统一的方式评估模型的回应。此外,研究人员还提出了一种名为SPCT(Self-Principled Critique Tuning)的训练方法,使DeepSeek-GRM能够针对特定查询和回应自动提出相应原则,并依据这些原则进行评估。
研究结果显示,DeepSeek-GRM在多项基准测试中表现出色,相较于传统奖励模型,其偏差更小。DeepSeek表示,DeepSeek-GRM模型将进行开源发布。
值得一提的是,DeepSeek此前推出的基础模型V3和推理模型R1曾引发科技界的广泛关注。据路透(Reuters)援引知情人士的消息,下一代推理模型R2可能会比原定的5月更早发布,其程序设计能力将大幅提升。
本文链接:http://www.28at.com/showinfo-27-142479-0.htmlDeepSeek联合清华大学推出AI模型训练新技术,将开源发布
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。