OpenAI近日震撼发布GPT-4.1系列模型,该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款,被誉为迄今为止最小、最快、最经济的模型阵容,且在性能上超越了先前的GPT-4o和GPT-4o mini。
GPT-4.1系列模型的上下文窗口扩大至100万个token,输出token数也增至32768个,知识库更新至2024年6月。据OpenAI的基准测试显示,这些新模型在编码、指令遵循以及长文本理解方面的表现均显著优于前代产品。
GPT-4.1系列目前仅通过API提供给开发者,并已全面开放。同时,OpenAI宣布将逐步淘汰GPT-4.5预览版,因为GPT-4.1系列在提供相似性能的同时,具备更低的成本和延迟。GPT-4.5预览版将于7月14日正式关闭。
在性能优化方面,GPT-4.1在编码任务上的提升尤为显著。在SWE-bench验证测试中,GPT-4.1得分54.6%,较GPT-4o提升了21.4%,较GPT-4.5提升了26.6%。在指令遵循方面,GPT-4.1在MultiChallenge基准测试中得分38.3%,较GPT-4o提高了10.5%。在长文本理解方面,GPT-4.1在Video-MME基准测试中,无字幕长文本类别得分72.0%,较GPT-4o提升了6.7%。
GPT-4.1 nano特别受到关注,因为它被认为是OpenAI最快、最经济的模型。在基准测试中,GPT-4.1 nano的MMLU得分为80.1%,GPQA得分为50.3%,Aider多语言编码得分为9.8%,均高于GPT-4o mini。对于需要处理大量查询且对延迟敏感的应用场景,GPT-4.1 nano无疑是一个理想的选择。
在编码能力方面,GPT-4.1在多种任务上的表现均优于GPT-4o,包括解决编码问题、前端编码、减少不必要的编辑等。特别是在创建Web应用方面,GPT-4.1能够生成功能更强大、美观度更高的应用。在OpenAI的对比测试中,人工评分员在80%的情况下更青睐GPT-4.1生成的网站。
在指令遵循方面,OpenAI开发了一个内部评估系统,用于跟踪模型在多个维度和关键指令遵循类别中的性能。GPT-4.1在困难提示方面的表现尤为出色,相较于GPT-4o有显著提升。在MultiChallenge基准测试中,GPT-4.1比GPT-4o提高了10.5%。在IFeval测试中,GPT-4.1的得分也高于GPT-4o。
在长文本理解方面,GPT-4.1系列模型能够处理高达100万个token的上下文,这使其在处理大型代码库或大量长文档时具有显著优势。OpenAI还对GPT-4.1进行了训练,使其能够在长和短上下文长度中忽略干扰信息。在实际测试中,GPT-4.1展现出了强大的“大海捞针”能力,能够在所有位置以及各种上下文长度的情况下准确检索到关键信息。
GPT-4.1系列的发布,为开发者构建智能系统和复杂的智能体应用提供了新的可能性。其卓越的性能和经济性,将推动开发者将其与各类API结合使用,构建出更有用、更可靠的智能体。这些智能体有望在现实世界的软件工程、文档分析、客户服务以及其他复杂任务中发挥巨大潜力。
举报 0收藏 0打赏 0评论 0分享 0 更多>同类资讯科研星光照亮寒冬:新能源技术突破,温暖十四亿人04-15
“彩云市集”闪耀新加坡FHA,云企出海联盟对接会成果斐然04-15
AI导航新纪元:会预判路况、懂你情绪的智能出行伙伴来了!04-15
广州AI洗头店走红:13分钟智能洗护,19元一次你试过没?04-15
摩托车“寿命”仅13年?特别展示区见证爱车人的不舍与无奈04-15高德首推AI导航智能体,让出行更懂你,有“温度”的导航来了!04-15
vivo X200 Ultra影像新突破,蔡司镜头挑战iPhone 16 Pro Max画质极限04-15
达梦数据2024年业绩亮眼:营收破10亿大关,净利增长超两成04-15高德AI导航智能体上线,出行从此有了“思考”的伙伴!04-15
蓝色起源全女性宇航员阵容震撼启航,“水果姐”凯蒂・佩里领衔太空游04-15
HBO剧版《哈利·波特》主演阵容初揭晓,今夏开拍引期待!04-15美团外卖豪掷千亿助力餐饮行业,未来三年共谋健康发展大计在2025中国餐饮连锁峰会上,美团外卖总经理薛冰宣布,未来三年,美团外卖将向餐饮行业整体投入1000亿元,帮助餐饮伙伴健康增长。 薛冰表示,1000亿元将聚焦四大方向:帮助商家补贴消费者激活需求、发放助力金帮…04-14
隐私计算产业链深度解析:企业分布与投资动向全览04-14
网红“何同学”拒好评惹争议,公众人物该如何表达自我?04-14
西江24-7无人智能平台组块封顶,模块化建造技术助力海洋工程新飞跃04-14点击查看更多 +全站最新
2025年汽车新纪元:这十款新车如何引领行业变革?
阿尔法罗密欧Kamal概念车:未来已来,独特魅力何在?
中安能源荣耀上榜!2025中国充换电行业十大品牌评选实力见证
比亚迪汉L唐L长春震撼上市,20.98万元起引领新能源科技新潮流!
电动新纪元,MINI JCW双车上市,全球品质遇上中国调校!
欧盟碳排新规来袭,车企不达标将遭千亿罚款,中国车企如何破局?热门内容
“彩云市集”闪耀新加坡FHA,云企出海联盟对接会成果斐然
AI导航新纪元:会预判路况、懂你情绪的智能出行伙伴来了!
广州AI洗头店走红:13分钟智能洗护,19元一次你试过没?
摩托车“寿命”仅13年?特别展示区见证爱车人的不舍与无奈
vivo X200 Ultra影像新突破,蔡司镜头挑战iPhone 16 Pro Max画质极限
达梦数据2024年业绩亮眼:营收破10亿大关,净利增长超两成
本文链接:http://www.28at.com/showinfo-16-144204-0.htmlGPT-4.1系列震撼发布!OpenAI史上最小最快最廉模型,百万token上下文处理
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。