小红书首推大模型dots.llm1,中文性能力压DeepSeek-V3
2025-06-11 10:03:37 AI 22观看
摘要近日,国内社交内容平台小红书在人工智能领域迈出了重要一步,宣布开源其首个大型语言模型dots.llm1。这一举动不仅为开源社区增添了一名重量级的新成员,也彰显了小红书在技术创新上的雄厚实力。dots.llm1是一个拥有1420亿

近日,国内社交内容平台小红书在人工智能领域迈出了重要一步,宣布开源其首个大型语言模型dots.llm1。这一举动不仅为开源社区增添了一名重量级的新成员,也彰显了小红书在技术创新上的雄厚实力。xvX28资讯网——每日最新资讯28at.com

dots.llm1是一个拥有1420亿参数的混合专家(MoE)模型,但在实际应用中,它仅需激活140亿参数,便能展现出与阿里Qwen3-32B模型相近的性能。这一特性使得dots.llm1在保持高效能的同时,也大大降低了运算成本。在中文任务上的表现尤为亮眼,dots.llm1在C-eval评测中取得了92.2分的高分,超越了包括DeepSeek-V3在内的众多模型。xvX28资讯网——每日最新资讯28at.com

技术报告显示,小红书团队在数据处理方面做出了多项创新。他们提出了一个可扩展且细粒度的三阶段数据处理框架,旨在提升数据的规模、质量和多样性。团队还开发了Web杂乱清除模型和类别平衡技术,进一步确保了数据的高质量和多样性。这些努力使得dots.llm1在预训练阶段就能接触到丰富且高质量的数据,从而提升了模型的性能。xvX28资讯网——每日最新资讯28at.com

在模型架构方面,dots.llm1采用了仅限解码器的Transformer架构,其中每一层包含一个注意力层和一个前馈网络(FFN)。与传统的密集模型不同,dots.llm1的FFN被专家混合(MoE)层所替代。这种架构使得dots.llm1能够在保持经济成本的同时,训练出功能强大的模型。在注意力层方面,dots.llm1使用了普通的多头注意力机制,而在MoE层则遵循了DeepSeek和Qwen的做法,用包含共享和独立专家的MoE层替换了FFN。xvX28资讯网——每日最新资讯28at.com

为了全面评估dots.llm1的性能,小红书团队在中文和英文上进行了预训练,并评估了它在多个领域基准测试中的表现。结果显示,dots.llm1在大多数领域中表现出了与Qwen2.5-72B相当的性能。特别是在语言理解任务上,dots.llm1在中文理解基准测试中取得了较高性能,这主要得益于其高效的数据处理管道。在知识任务、代码和数学领域,dots.llm1也展现出了稳健的表现。xvX28资讯网——每日最新资讯28at.com

dots.llm1在预训练完成后还经过了监督微调阶段。小红书团队基于开源数据和内部注释数据收集了大约400k个指令调优实例,并对dots.llm1进行了两个阶段的微调。这些努力进一步提升了dots.llm1在特定领域(如数学和编码)的能力。xvX28资讯网——每日最新资讯28at.com

通过此次开源,小红书不仅为人工智能领域贡献了一个强大的大型语言模型,也展示了其在数据处理和模型架构方面的创新实力。dots.llm1的成功推出,无疑将推动大型语言模型的发展和应用,为人工智能技术的进步注入新的活力。xvX28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
一汽丰田bZ5上市,续航550-630km,售价12.98-15.98万元,性价比高吗?
一汽丰田bZ5上市,续航550-630km,售价12.98-15.98万元,性价比高吗?
2026款沃尔沃XC40焕新上市,26.98万起售,能否逆袭凯迪拉克XT4?
2026款沃尔沃XC40焕新上市,26.98万起售,能否逆袭凯迪拉克XT4?
光谷创业咖啡孵化项目“车来了”成功上市,天使投资模式再添辉煌篇章!
光谷创业咖啡孵化项目“车来了”成功上市,天使投资模式再添辉煌篇章!
问界全系重庆车展大放异彩,M9交付里程碑:20万辆达成!
问界全系重庆车展大放异彩,M9交付里程碑:20万辆达成!
混动车涉水全攻略:安全通过不慌张,事后三检保无忧
混动车涉水全攻略:安全通过不慌张,事后三检保无忧
江淮华为联手打造的尊界S800,72小时大定破2600,开启中国品牌高端化新征途
江淮华为联手打造的尊界S800,72小时大定破2600,开启中国品牌高端化新征途
热门内容
  • 荣耀“鲲鹏”照片事件真相大白,造谣者道歉遭刑拘
  • 腾讯阿里AI to C战场“双吴”争霸,谁将问鼎AI搜索之巅?
  • 英伟达全球总部或将落户中国台湾,黄仁勋下周宣布这一重大决定?
  • 教育部新规:学生禁直接复制AI作业,强化独立思考与批判性思维
  • 联发科天玑9400e发布:天玑9300+升级版,蓝牙升级至6.0
  • 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
  • 中国GPU市场竞争激烈,英伟达独占7成,华为昇腾紧追其后!
  • 华为Mate 40系列(5G)已支持5G-A网络,性能再升级!
  • 华为nova 14系列震撼登场!鸿蒙5直板机领衔,nova 14仅售2699元起
  • 教育部新规:中小学分阶段用AI,严禁复制答案强化独立思考
  • 华为nova14 Ultra震撼登场!鸿蒙5系统加持,售价4199元起
  • 华为昇腾超节点技术突破:384卡高速互联,引领AI模型训练新纪元
  • 华为nova 15系列下半年将亮相,自研芯片加持产品力再升级?
  • DeepSeek新论文揭秘:梁文锋领衔探索AI训练推理成本效益之道
  • 荣耀400系列新品发布会:4K超清Live拼图,定格每个精彩瞬间?
本栏最新
商汤小浣熊与蚂蚁百宝箱联手,打造AI数据分析助手赋能商家
商汤小浣熊与蚂蚁百宝箱联手,打造AI数据分析助手赋能商家
字节AI整合发力,"可灵们"能否守住市场一席之地?
字节AI整合发力,"可灵们"能否守住市场一席之地?
美图:AI时代中厂的逆袭之路?
美图:AI时代中厂的逆袭之路?
字节AI整合发力,"可灵"等竞品能否抵挡字节攻势?
字节AI整合发力,"可灵"等竞品能否抵挡字节攻势?
苹果AI进程缓慢,库克坚持混动路线能否跟上AI时代步伐?
苹果AI进程缓慢,库克坚持混动路线能否跟上AI时代步伐?
MiTAC神雲科技ISC2025大展拳脚:先进服务器平台引领HPC未来
MiTAC神雲科技ISC2025大展拳脚:先进服务器平台引领HPC未来

本文链接:http://www.28at.com/showinfo-45-13632-0.html小红书首推大模型dots.llm1,中文性能力压DeepSeek-V3

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:黄仁勋:AI成平等推进器,人类语言成新编程“钥匙”

下一篇:具身智能未来何在?行业大佬激辩:机器人“能干活”方显真功夫

最新热点