阿里通义千问Qwen2.5-1M模型开源,长上下文处理能力大幅提升!
2025-01-27 09:28:56 AI 40观看
摘要阿里通义千问于近日正式宣布,开源了其最新的Qwen2.5-1M模型及其配套的推理框架。这一举措标志着通义千问在人工智能领域迈出了重要一步。据悉,通义千问此次发布的开源模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Inst

阿里通义千问于近日正式宣布,开源了其最新的Qwen2.5-1M模型及其配套的推理框架。这一举措标志着通义千问在人工智能领域迈出了重要一步。vmY28资讯网——每日最新资讯28at.com

据悉,通义千问此次发布的开源模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个版本。尤为引人注目的是,这两个版本首次将Qwen模型的上下文长度扩展到了1M(即100万标记),这在业界尚属首次。vmY28资讯网——每日最新资讯28at.com

为了帮助开发者更好地部署和应用这些模型,Qwen团队还开源了基于vLLM的推理框架。该框架集成了稀疏注意力方法,使得在处理长达1M标记的输入时,推理速度有了显著提升,达到了3倍至7倍的增长。vmY28资讯网——每日最新资讯28at.com

在长上下文任务方面,Qwen2.5-1M系列模型展现出了强大的能力。在一项名为“大海捞针”的任务中,这些模型能够准确地从1M长度的文档中检索出隐藏信息。尽管7B版本的模型在极少数情况下出现了错误,但整体上,其表现仍然令人瞩目。vmY28资讯网——每日最新资讯28at.com

为了全面评估Qwen2.5-1M系列模型在长上下文任务中的表现,研究团队还选择了RULER、LV-eval和LongbenchChat等多个测试集进行测试。测试结果显示,这些模型在大多数任务中都显著优于之前的128K版本,特别是在处理超过64K长度的任务时,其优势更加明显。vmY28资讯网——每日最新资讯28at.com

Qwen2.5-14B-Instruct-1M模型不仅在性能上击败了Qwen2.5-Turbo,还在多个数据集上稳定超越了GPT-4o-mini。这一结果无疑为长上下文任务提供了更多开源模型的选择。vmY28资讯网——每日最新资讯28at.com

除了长上下文任务外,Qwen2.5-1M系列模型在短序列任务上的表现同样出色。测试结果显示,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任务上的表现与其128K版本相当,这意味着增加长序列处理能力并没有牺牲其基本能力。vmY28资讯网——每日最新资讯28at.com

与GPT-4o-mini相比,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任务上实现了相近的性能,但它们的上下文长度却是GPT-4o-mini的八倍。这一结果进一步证明了Qwen2.5-1M系列模型在短序列任务上的强大实力。vmY28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
智慧电子产业园冲刺:未来两年总产值目标十亿元!
智慧电子产业园冲刺:未来两年总产值目标十亿元!
“天关”卫星探测:宇宙早期爆发软X射线信号首现!
“天关”卫星探测:宇宙早期爆发软X射线信号首现!
家中谜团:我每月寄回4000,母亲仍喊穷,弟弟却开上了20万新车
家中谜团:我每月寄回4000,母亲仍喊穷,弟弟却开上了20万新车
比亚迪日本市场高歌猛进,插电混动技术能否再掀浪潮?
比亚迪日本市场高歌猛进,插电混动技术能否再掀浪潮?
苹果AirPods未来大升级:将配红外摄像头,听歌同时还能“感知”世界?
苹果AirPods未来大升级:将配红外摄像头,听歌同时还能“感知”世界?
苹果2025年大动作:HomePod变身7英寸智能家居控制中枢?
苹果2025年大动作:HomePod变身7英寸智能家居控制中枢?
热门内容
  • 95后AI天才少女罗福莉跳槽小米,DeepSeek-V3模型已上线并开源
  • 三星Galaxy S25系列真机曝光,明日发布会将有何惊喜?
  • 95后AI天才少女罗福莉,弃幻方量化投小米,雷军千万年薪有何吸引力?
  • 支付宝集五福新升级,2025年1月20日活动盛大启幕!
  • 扫地机器人进化新形态,追觅机械手引领家庭服务智能革命
  • 三星Galaxy S25系列评测:AI大升级,Ultra版全面领跑
  • CES 2025:Aria机器人亮相,高度拟人可换脸,专为陪伴而生
  • DeepSeek实测:低成本AI大模型能否媲美行业巨头?
  • 三星S25系列发布会前瞻:手机迭代温和,OneUI 7与AI硬件成亮点?
  • 英伟达CES发布Project Digits:3000美元迷你AI超算实拍亮相
  • 字节跳动自建数据中心,2025年计划投资1600亿打造大规模集群
  • 2025杰出雇主榜单发布:企业如何应对市场挑战,人才战略是关键
  • DeepSeek团队揭秘:清北应届生领衔,年轻力量如何撑起AI大模型新篇章?
  • 中部最大智算中心“河南空港”正式投产,算力规模将达10万P!
  • CES现场直击:萌友智能Ropet,让大白式陪伴机器人走进现实?
本栏最新
万通发展重大资产重组告吹,转型高端光模块之路何去何从?
万通发展重大资产重组告吹,转型高端光模块之路何去何从?
DeepSeek短时闪崩后回应,已冲进美区苹果App Store免费榜前三
DeepSeek短时闪崩后回应,已冲进美区苹果App Store免费榜前三
AI狂潮背后的隐形富豪:SK海力士利润暴涨22倍
AI狂潮背后的隐形富豪:SK海力士利润暴涨22倍
刘庆峰揭秘百模大战:科大讯飞如何在巨头夹击下坚守AI初心?
刘庆峰揭秘百模大战:科大讯飞如何在巨头夹击下坚守AI初心?
百川智能全模态模型Baichuan-Omni-1.5发布,能否引领AI新潮流?
百川智能全模态模型Baichuan-Omni-1.5发布,能否引领AI新潮流?
百度iRAG技术:萌宠拜年图也能生成,AI生图走向实用新时代
百度iRAG技术:萌宠拜年图也能生成,AI生图走向实用新时代

本文链接:http://www.28at.com/showinfo-45-10196-0.html阿里通义千问Qwen2.5-1M模型开源,长上下文处理能力大幅提升!

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:全球首发的港口服务大模型方舟TaaS,公测正式启动!

下一篇:DeepSeek开源AI模型崛起,Meta科学家杨立昆:这就是开源的魅力?

最新热点