昆仑万维发布Skywork-Reward-V2奖励模型,全面夺魁七大主流评测榜单
2025-07-04 12:13:08 AI 10观看
摘要昆仑万维在人工智能领域再度发力,于近期正式推出了其第二代奖励模型系列——Skywork-Reward-V2。这一系列共涵盖了8个不同规模的模型,参数量从6亿至80亿不等,均基于不同的基座模型构建。令人瞩目的是,Skywork-Reward-V2系

昆仑万维在人工智能领域再度发力,于近期正式推出了其第二代奖励模型系列——Skywork-Reward-V2。这一系列共涵盖了8个不同规模的模型,参数量从6亿至80亿不等,均基于不同的基座模型构建。令人瞩目的是,Skywork-Reward-V2系列一经问世,便迅速在七大主流奖励模型评测中脱颖而出,全面夺得榜首,成为开源奖励模型领域的新星。MoB28资讯网——每日最新资讯28at.com

奖励模型在强化学习从人类反馈(RLHF)的过程中扮演着核心角色。为了打造这一全新系列的奖励模型,昆仑万维精心构建了一个包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理策略上,团队创新性地采用了人机协同的两阶段流程,巧妙地将人工标注的高质量与模型的大规模处理能力相结合。在第一阶段,团队首先构建了一个初始的、未经验证的偏好池,并借助大语言模型生成辅助属性。随后,人工标注者依据严格的协议,借助外部工具和大语言模型,对部分数据进行精细审核,从而构建出一个小规模但高质量的金标准数据集。以此为引导,结合大语言模型,团队进一步生成了高质量的银标准数据,并通过多轮迭代不断优化。进入第二阶段,团队转向自动化的大规模数据扩展,利用训练完成的奖励模型执行一致性过滤,既减轻了人工标注的负担,又实现了偏好数据规模与质量的完美平衡。MoB28资讯网——每日最新资讯28at.com

基于这一优质的混合偏好数据,Skywork-Reward-V2系列展现出了广泛的适用性和卓越的能力。它不仅在人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度上表现出色,还在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流奖励模型评估基准上全面达到了当前最优水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能也几乎达到了上一代最强模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了当前开源奖励模型的最高水平。最大规模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中均全面超越,成为了当前整体表现最优的开源奖励模型。MoB28资讯网——每日最新资讯28at.com

Skywork-Reward-V2系列还具备广泛覆盖多维人类偏好的能力。在通用偏好评估基准上,它优于多个参数更大的模型以及最新的生成型奖励模型;在客观正确性评估方面,它在知识密集型任务中展现出了突出的表现;在多项高级能力评估中,包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解以及真实性判断等,均取得了领先的成绩,充分展现了其出色的泛化能力与实用性。MoB28资讯网——每日最新资讯28at.com

数据筛选流程的高度扩展性也显著提升了奖励模型的性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能够持续有效地提升模型的整体性能,特别是在第二阶段的全自动数据扩展中表现尤为显著。早期版本的实验结果显示,仅需使用1.8%的高质量数据训练8B规模的模型,其性能就能超越当前的70B级最高水平奖励模型,这充分印证了Skywork-SynPref数据集在规模和质量上的显著优势。MoB28资讯网——每日最新资讯28at.com

对于感兴趣的研究人员和开发者来说,可以通过以下链接获取更多关于Skywork-Reward-V2系列的信息和资源:HuggingFace地址为https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址为https://github.com/SkyworkAI/Skywork-Reward-V2。MoB28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯CoreWeave首商用英伟达Blackwell Ultra芯片,引领AI云计算新篇章07-04MiniMax-M1登顶开源AI榜,技术实力彰显,引领行业新风潮07-04英伟达股价攀升至新高,市值突破3.89万亿美元成全球科技新领袖07-04微软年内二度大规模裁员,近9000岗位受影响07-04ABB推出三款新型机器人,瞄准中国中型企业自动化需求IT之家 7 月 3 日消息,据路透社报道,瑞士工程巨头 ABB周三宣布,将面向中国市场推出三款新型工厂机器人系列,瞄准对自动化需求日益增长的中国中型企业。 根据国际机器人联合会的数据,中国已成为全球最大的…07-04中国移动中兴通讯联手打造“联创+”自智网络实验室,加速科技创新成果转化近日,中国移动通信集团有限公司与中兴通讯股份有限公司在北京举行“联创+”自智网络开放实验室揭牌仪式。此举旨在贯彻国家科技创新驱动发展战略,加速自智网络高阶发展。 中国移动副总经理李慧镝强调,通信产业是推动社会…07-04荣耀Magic V5深度评测:极致轻薄下的性能与智能新高度在性能上,荣耀Magic V5并没有因为轻薄而向性能妥协,这恰好就是用户的理想型。如果你想要拥有一部折叠屏手机双持的话,那么荣耀Magic V5一定就是一个不错的选择,不仅轻薄,而且还没有传输壁垒,想怎么传…07-04智谱AI上海子公司增资近50倍,寰宇科技公司资本跃升至5亿07-04优必选杭州布局,新设智行机器人公司,注册资本高达5000万!07-04歌尔股份杭州新设歌尔泰克,注册资本达500万引关注07-04中石油昆仑资本携手山东未来机器人,共谱智能制造新篇章07-04AI赋能热辐射超材料设计,批量创制方案突破传统设计上限金属基复合材料全国重点实验室、上海交通大学材料科学与工程学院、张江高等研究院未来材料创制中心教授周涵表示,热辐射超材料的设计难点在于缺乏普适性方法,即缺乏多材料、多结构、多维度、多参数的全自动设计范式及通用方…07-03Fortinet连续第二年荣膺Gartner企业级WLAN魔力象限领导者Fortinet 全面集成至 Fortinet Security Fabric 的企业级有线和无线局域网解决方案,为用户打造经实践检验、以人工智能驱动的安全平台,全面融合网络与安全性,助力用户降低复杂性、缓…07-03外滩大会AI科创赛启幕,探索生活变革、金融智能与安全防护新应用07-03外滩大会AI科创赛盛启,三大领域角逐百万奖金共促创新7月3日,2025 Inclusion·外滩大会科技智能创新赛(简称“外滩大会AI科创赛”)正式启动,本届大赛在上海市科学技术委员会指导下,聚焦AI智能硬件、金融智能、AI安全等领域创新应用,设置人工智能硬…07-03点击查看更多 +全站最新黑洞之谜:高维度或是解开其本质的关键线索黑洞之谜:高维度或是解开其本质的关键线索长四丙火箭西昌再建功,成功发射试验二十八号B星01星入轨长四丙火箭西昌再建功,成功发射试验二十八号B星01星入轨哈工大录取通知书:宇宙级浪漫,携梦想上太空哈工大录取通知书:宇宙级浪漫,携梦想上太空小鹏G7正式上市挑战Model Y,何小鹏:智能算力新纪元开启,9分钟大定破万小鹏G7正式上市挑战Model Y,何小鹏:智能算力新纪元开启,9分钟大定破万丰田借势涨价,或加速供应链倒戈,国产电车面临新挑战丰田借势涨价,或加速供应链倒戈,国产电车面临新挑战小鹏G7正式上市:L3级算力引领智驾新时代,起售价19.58万元小鹏G7正式上市:L3级算力引领智驾新时代,起售价19.58万元热门内容
  • 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
  • 马斯克宣布Grok 4大模型即将面世,或专为编程打造
  • 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
  • 苹果AI「Apple Intelligence」国行版,终于要来了吗?
  • QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
  • 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
  • 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
  • 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
  • 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
  • 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
  • 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
  • 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
  • 字节跳动美食AI“探饭”内测,豆包大模型助力本地生活服务升级
  • 麦芒40新机大揭秘:5000万像素主摄搭配6100mAh电池,设计如何?
  • 小红书首次开源大模型,1420亿参数媲美阿里Qwen3,AI版图再扩张
本栏最新微软年内二度大规模裁员,近9000岗位受影响微软年内二度大规模裁员,近9000岗位受影响ABB推出三款新型机器人,瞄准中国中型企业自动化需求ABB推出三款新型机器人,瞄准中国中型企业自动化需求中国移动中兴通讯联手打造“联创+”自智网络实验室,加速科技创新成果转化中国移动中兴通讯联手打造“联创+”自智网络实验室,加速科技创新成果转化荣耀Magic V5深度评测:极致轻薄下的性能与智能新高度荣耀Magic V5深度评测:极致轻薄下的性能与智能新高度智谱AI上海子公司增资近50倍,寰宇科技公司资本跃升至5亿智谱AI上海子公司增资近50倍,寰宇科技公司资本跃升至5亿优必选杭州布局,新设智行机器人公司,注册资本高达5000万!优必选杭州布局,新设智行机器人公司,注册资本高达5000万!

本文链接:http://www.28at.com/showinfo-45-14321-0.html昆仑万维发布Skywork-Reward-V2奖励模型,全面夺魁七大主流评测榜单

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:中国医疗大模型领跑全球,毕马威展望智能医疗市场巨大潜力

下一篇:CoreWeave首商用英伟达Blackwell Ultra芯片,引领AI云计算新篇章

最新热点