中国人工智能领域的明星企业DeepSeek近期宣布了其旗舰大语言模型的重大更新,新版本针对即将面世的新一代国产芯片进行了专门优化。3I028资讯网——每日最新资讯28at.com
据DeepSeek介绍,此次升级采用了名为UE8M0的新型数据类型来训练V3.1模型,这是对现有FP8格式的一种扩展,已被英伟达等业界巨头所支持。DeepSeek在微信平台上澄清,这一变化是为了更好地适配即将推出的国产芯片,指出“UE8M0 FP8专为新一代国产芯片设计”。3I028资讯网——每日最新资讯28at.com
使用较低精度的数据类型带来了诸多优势,包括减少内存占用和提升推理及训练速度。值得注意的是,DeepSeek之前已经在使用FP8格式中的E4M3类型。因此,转向UE8M0更多是为了确保与新一代芯片的兼容性,而非单纯追求效率提升。3I028资讯网——每日最新资讯28at.com
虽然DeepSeek未透露新模型所适配芯片的具体制造商,但有报道称这家AI初创公司与华为有着紧密合作,利用华为的昇腾系列神经处理单元(NPU)进行模型训练和推理。华为的昇腾910C为其CloudMatrix机架系统提供动力,但目前不支持FP8格式,这或许意味着华为正在研发性能更强大的加速器。3I028资讯网——每日最新资讯28at.com
有消息指出,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但因遇到困难而改用英伟达的H20加速器。不过,DeepSeek目前仍在评估华为加速器的推理性能。3I028资讯网——每日最新资讯28at.com
关于R2模型,目前尚不清楚它是否就是此次发布的V3.1版本,或是另一个即将推出的模型。3I028资讯网——每日最新资讯28at.com
值得注意的是,DeepSeek V3.1并非从零开始的全新模型,而是基于早期V3版本的检查点进一步训练而成。尽管如此,这一新版本在功能上有显著改进。V3.1版本不再区分“思考型”和“非思考型”模型,而是将两种范式整合到单一模型中,并通过聊天模板实现模式切换。因此,DeepSeek的聊天机器人界面也不再提及R1版本。3I028资讯网——每日最新资讯28at.com
统一模型以支持推理和非推理输出的概念并非DeepSeek首创。阿里巴巴今年早些时候也曾尝试过类似做法,但因发现该功能降低了模型质量而放弃。然而,在基准测试中,DeepSeek的V3.1版本似乎成功避免了这一问题。与V3版本相比,V3.1的非思考模式在各项指标上都有显著提升。3I028资讯网——每日最新资讯28at.com
在启用思考功能后,V3.1版本的性能提升虽然相对温和,但DeepSeek指出,该模型现在需要更少的思考Token就能给出答案,这将有助于降低模型服务的成本。3I028资讯网——每日最新资讯28at.com
在上下文处理能力方面,DeepSeek将V3.1版本的上下文窗口(即短期记忆)从65,536个Token扩展到131,072个,尽管这一数字仍然落后于阿里巴巴的Qwen3等其他中国模型,后者能处理高达百万级的Token上下文。3I028资讯网——每日最新资讯28at.com
DeepSeek还声称在工具和函数调用能力方面取得了重大进展,这对于需要实时检索外部数据和调用工具的AI工作负载至关重要。例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek V3.1版本获得了30分的高分,而R1版本的5月版本仅得8.9分。3I028资讯网——每日最新资讯28at.com
除了通过聊天机器人服务和API端点提供服务外,DeepSeek还在Hugging Face和ModeScope平台上提供了基础模型和指令调优模型的权重下载,方便开发者进一步定制和优化。3I028资讯网——每日最新资讯28at.com
关于DeepSeek V3.1版本的更多信息,以下是几个常见问题及解答:3I028资讯网——每日最新资讯28at.com
Q:DeepSeek V3.1有哪些新特点?3I028资讯网——每日最新资讯28at.com
A:V3.1版本最大的特点是使用UE8M0数据类型进行优化,专为即将发布的国产芯片设计。同时,它整合了“思考型”和“非思考型”模型功能,在单一模型中通过聊天模板实现模式切换,并将上下文窗口的Token数量大幅提升。3I028资讯网——每日最新资讯28at.com
Q:为什么DeepSeek要切换到UE8M0数据类型?3I028资讯网——每日最新资讯28at.com
A:DeepSeek切换到UE8M0主要是为了与即将推出的新一代国产芯片保持兼容。尽管公司之前已在使用FP8的E4M3类型,但UE8M0是专为新一代国产芯片设计的,预示着可能有更强大的国产加速器即将面世。3I028资讯网——每日最新资讯28at.com
Q:DeepSeek V3.1版本的性能如何?3I028资讯网——每日最新资讯28at.com
A:在基准测试中,V3.1版本的非思考模式相比V3版本在各项指标上都有显著提升。在工具调用方面,V3.1版本在Browsecomp浏览器任务测试中得分高达30分,远超R1版本的8.9分。同时,该模型现在需要更少的思考Token就能给出答案,有助于降低服务成本。3I028资讯网——每日最新资讯28at.com
举报 0收藏 0打赏 0分享 0 更多>同类资讯华为云架构大调整:多部门整合,全力冲刺AI领域,目标年内盈利08-23

中国电信栾晓维详解:云网智融战略,驱动各行业数字化转型在主论坛上,中国电信集团有限公司副总经理栾晓维发表题为《云网智融,赋能百业》的主旨演讲,分享了中国电信在基础设施升级、智能云体系建设、AI普惠向善的实践成果。 在此次大会上,中国电信发布了人工智能算力优化AI…08-23

AI陪伴市场崛起,雷军马斯克加码布局,长期记忆成关键挑战这一热潮背后,既有因人口结构变化而产生的现实需求驱动,也有技术端快速迭代的助力——大模型价格战与开源趋势大幅降低了应用门槛,使得AI陪伴产品从概念走向普及。 在市场层面,技术不成熟带来的不确定性也导致一些厂商…08-23百度股价上扬2.15%,市值达307.64亿美元,2025财年中报即将披露8月22日,百度(BIDU)开盘上涨2.15%,截至21:34,报89.49美元/股,成交3476.58万美元,总市值307.64亿美元。百度核心主要提供在线营销服务和非营销增值服务,以及来自新人工智能举措的…08-23科创板AI基金8月22日净值飙升7.79%,重仓股表现抢眼来源:新浪基金∞工作室 科创板AI成立于2025年1月6日,业绩比较基准为上证科创板人工智能指数收益率。基金经理为谭跃峰。谭跃峰自2024年12月18日管理(或拟管理)该基金,任职期内收益52.83%。 最…08-23博时科创板人工智能ETF最新净值公布,单月涨幅达7.86%来源:新浪基金∞工作室博时科创板人工智能ETF成立于2024年12月31日,业绩比较基准为上证科创板人工智能指数收益率。李庆阳自2024年12月19日管理(或拟管理)该基金,任职期内收益56.15%。 最新…08-23

佑驾创新2025中期业绩:总收入增46%,智能座舱业务近翻倍08-23

华为Pura80 Pro+大跳水,一英寸主摄+双卫星通信,麒麟9020仅售6099元更值得一提的是LOFIC技术(低噪点高动态采集),这是华为给影像系统上的一颗“补心丸”。它让手机在逆光、夜景下的成像更接近专业相机的宽容度,这也是为什么不少摄影爱好者把Pura80 Pro+称为“口袋里的单…08-23

智能工厂:制造业数字化转型的引擎与未来展望它让工厂具备了“思考”与“决策”的能力,能够实时感知生产状态、精准预测设备故障、智能调度生产资源,使生产效率、产品质量、资源利用率等关键指标得到显著提升,为制造业在激烈的全球竞争中赢得了新的发展空间与优势。它…08-23

荣耀小折叠屏旗舰Magc V Flip2:8月28日开售,配置全面升级作为荣耀新一代小折叠屏,拥有多个亮点,比如大师高定设计、2亿像素摄像头、青海湖电池、满级防水等,果然小折叠屏手机,离不开影像的提升,尤其是人像拍摄方面,毕竟新机倾向于女生手机市场。折叠屏提升到6.82英寸,分…08-23

NVIDIA黄仁勋急赴台积电,或推定制AI芯片B30A应对中国市场变化此外继续采用NVIDIA的AI芯片,将有效避免兼容问题,当前全球大多数大模型都是基于NVIDIA的CUDA生态,如此情况下,继续采用NVIDIA的AI芯片,可以更好地兼容NVIDIA的CUDA生态,这同样有…08-23机器人概念股走强,ETF易方达(159530)本周资金净流入超7亿值得注意的是,截至10:53,机器人ETF易方达(159530)成交额已超3亿元、在同标的产品中居首,实时净申购超1亿份。 资料显示,国证机器人产业指数选样范围突出人形机器人本体和核心零部件,相关个股占比近…08-23Meta身陷AI数据侵权风波,2396部影片遭非法使用,面临3.59亿索赔08-23百度蒸汽机2.0:低成本打造高质科幻视频,影视制作新革命08-23

华为发布2025高品质医院网络建设指南V2.0:打造智慧医疗新生态《高品质医院网络建设指南V2.0》围绕智慧医院网络建设,从发展趋势、挑战、解决方案等多方面展开,为医院网络建设提供全面指导。 数据中心网络为解决传统问题,构建高可用、高性能、易运维的数据中心,有内部和多活数…08-22点击查看更多 +
全站最新
小米汽车崛起:以高性价比挑战保时捷,智能电动市场格局生变

小米之家昆明旗舰店开业,王晓雁透露年底3000家门店将升级

2025上半年城区领航辅助驾驶市场概览:华为领跑,智能化加速普及

岚图FREE+上市价曝光,21.69万起售,高阶辅助驾驶新选择

AI泡沫警报!OpenAI奥特曼:狂热背后,理性与矛盾并存

京东拼拼“团店”新生态:社区团购赛道重启,资源整合模式能否突围?
热门内容- 雷军抖音账号变动引热议:武汉大学标签悄然消失?
- 云计算新纪元:云智融合引领未来趋势,安全与技术创新并行
- 阿里巴巴1688升级AI服务:新品App与查询工具上线,赋能中小企业高效采购
- 华为Mate 80系列爆料:全新麒麟9030,eSIM与低轨卫星通讯技术加持
- 浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑
- 红米Note15系列前瞻:7s芯片、7000mAh大电池,防水新标杆即将登场
- 2025年人工智能发展蓝图:趋势、格局与行业应用深度剖析
- AI企业市场新格局:Anthropic超越OpenAI成首选
- 光伏电站智能化管理:提升效率,降低成本,助力“双碳”目标实现
- AI时代下的云计算革命:2025蓝皮书深度解读全球数字格局新变局
- 雷军抖音账号母校标签“武汉大学”消失,或涉平台隐私调整
- 国家网信办约谈英伟达:要求阐释H20算力芯片安全隐患及后门风险
- 字节跳动AI底层架构领跑2025:技术、组织与财务全面赋能AI时代
- 阿里自研旗舰AI眼镜WAIC 2025首发,探索智能终端新未来
- 马斯克将为Grok Heavy用户带来AI视频生成器及虚拟男友“Valentine”测试版
本栏最新
DeepSeek V3.1大模型升级,适配国产新芯片,性能显著提升

中国电信栾晓维详解:云网智融战略,驱动各行业数字化转型

AI陪伴市场崛起,雷军马斯克加码布局,长期记忆成关键挑战

佑驾创新2025中期业绩:总收入增46%,智能座舱业务近翻倍

华为Pura80 Pro+大跳水,一英寸主摄+双卫星通信,麒麟9020仅售6099元

智能工厂:制造业数字化转型的引擎与未来展望