Meta Llama 4口碑翻车:开源大模型竞争加剧下的失速之痛?
2025-04-09 07:27:20 AI 33观看
摘要在人工智能领域,开源大模型Llama 4的发布风波持续发酵,引发广泛关注和讨论。4月8日,备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明,针对社群对meta新模型Llama 4排名的质疑,承诺将公开2000多场真人对比

在人工智能领域,开源大模型Llama 4的发布风波持续发酵,引发广泛关注和讨论。4月8日,备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明,针对社群对meta新模型Llama 4排名的质疑,承诺将公开2000多场真人对比测试的完整数据,并罕见地点名meta。t6w28资讯网——每日最新资讯28at.com

Chatbot Arena指出,meta应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好优化的定制化模型。平台正在更新排行榜的策略,以避免此类混淆再次发生。这一声明不仅是对当前事件的澄清,更是对整个大模型行业的一次警示。t6w28资讯网——每日最新资讯28at.com

Chatbot Arena由加州大学伯克利分校发起,通过真人盲测机制,让开发者和AI爱好者在平台上用相同问题向两款模型提问,对比回答内容并投票打分。这种独特的评测方式使其成为外界最为信赖的大模型排行榜之一。模型在Chatbot Arena排行榜的排名,直接影响其在媒体和开发者群体中的口碑与采纳率。t6w28资讯网——每日最新资讯28at.com

因此,当meta在4月5日发布最新一代开源大模型Llama 4,并迅速冲上Chatbot Arena排行榜第二,仅次于Google前脚发布的Gemini 2.5 Pro时,引起了所有人的好奇和期待。然而,很快社区发现,这一版本是未公开、定制化调优的实验模型,而非meta开源的正式版。争议由此爆发:这是否构成“刷榜”?Chatbot Arena是否被利用为营销工具?meta为何要如此操作?t6w28资讯网——每日最新资讯28at.com

不仅如此,在部分官方未展示的专业基准测试中,Llama 4的表现也不尽如人意,几乎垫底。许多首批尝试的用户在Reddit等社交平台上表达了失望,指出Llama 4在编程能力上的不足。有用户提到:“考虑到Llama-4-Maverick有402B的参数量,我为什么不直接使用DeepSeek-V3-0324呢?或者Qwen-QwQ-32B可能更合适——虽然性能相似,但它的参数量只有32B。”t6w28资讯网——每日最新资讯28at.com

回溯至4月5日,meta在官方博客上宣布Llama 4系列模型面向社区开源,包括Llama 4 Scout、Llama 4 Maverick以及仍在训练中的“教师模型”Llama 4 Behemoth,均首次采用混合专家(MoE)架构。其中,最受关注的Maverick版本拥有128个“专家”,170亿活跃参数(总参数为4000亿),meta将其描述为“同类最佳的多模态模型”。t6w28资讯网——每日最新资讯28at.com

然而,Llama 4发布后不久,情况便急转直下。首批用户对Llama 4的表现并不满意,尤其是在需要代码能力和严谨逻辑推理的场景中,Llama 4的表现并未兑现超越GPT、DeepSeek的承诺。在Aider Chat提供的Polyglot编程测试中,Maverick版本的正确率仅为16%,处于排行榜末尾,与其庞大的参数体量完全不符,甚至落后于规模更小的开源模型,如Google Gamma。t6w28资讯网——每日最新资讯28at.com

面对风评下滑和严厉质疑,meta团队迅速出面澄清。经手“后训练”的meta GenAI成员虞立成(Licheng Yu)表示,虚心聆听各方反馈,并希望能在下一版有所提升。他强调,meta从未为了刷点而针对测试集进行过度拟合。同时,meta GenAI的副总裁Ahmad Al-Dahle也在社交媒体上明确表示,meta没有在测试集上训练Llama 4。t6w28资讯网——每日最新资讯28at.com

尽管这些回应试图平息争议,但Llama 4的真实能力仍备受质疑。作为开源阵营中曾经“最有希望挑战OpenAI”的旗手,Llama 4原本承载着开发者与产业界的高度期待。然而,它在发布一周内便从“高光”跌入“信任危机”,成为大模型竞赛中一次罕见的口碑“滑铁卢”。t6w28资讯网——每日最新资讯28at.com

追根究底,Llama 4的问题不在于造假,而在于开源大模型竞争加剧下的失速。过去两年,meta凭借Llama 2和Llama 3逐步在开源模型市场上建立起“领先、可靠”的认知。然而,随着DeepSeek V3/R1的发布,开源与闭源模型的差距被扭转,且开源模型的发展速度大大加快。这让原本作为“开源领导者”的Llama面临更大的压力。t6w28资讯网——每日最新资讯28at.com

meta也未能控制住动作的变形。Llama-4-Maverick-03-26-Experimental针对对话模式的优化本身无可厚非,但“首发”Chatbot Arena的目的却路人皆知。在参数规模膨胀、架构复杂化(MoE)的同时,Llama 4很可能没有留出足够的测试和改进时间,才导致发布后不稳定的性能表现。t6w28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
五菱技术大升级:新电池安全升级,智驾系统算力爆表,动力表现如何?
五菱技术大升级:新电池安全升级,智驾系统算力爆表,动力表现如何?
上汽通用五菱再发力,技术进化引领电智神车新时代!
上汽通用五菱再发力,技术进化引领电智神车新时代!
小鹏X9焕新登场,39.98万起售!新能源MPV市场竞争再升级
小鹏X9焕新登场,39.98万起售!新能源MPV市场竞争再升级
小米汽车接入Siri语音控制,解锁、开后备箱等动动嘴即可完成
小米汽车接入Siri语音控制,解锁、开后备箱等动动嘴即可完成
比亚迪一季度纯电销量领跑全球,再度夺冠特斯拉居次
比亚迪一季度纯电销量领跑全球,再度夺冠特斯拉居次
豪车降价潮来袭!宝马5系直逼30万大关,多品牌“一口价”跟进
豪车降价潮来袭!宝马5系直逼30万大关,多品牌“一口价”跟进
热门内容
  • 某大厂大模型高管涉婚变,公司账号停用引热议
  • 美团等巨头联手投资硅基流动,共筑生成式AI设施新蓝图
  • 00后主播借AI工具DeepSeek,直播单日狂揽3.3亿销售额!
  • 华为Pura X震撼发布:独特“阔折叠”形态,售价7499元起引领新潮流!
  • 立陶宛高校:学生不当使用AI,学术不端遭开除
  • AI大模型时代,文科生将何去何从?
  • 夸克全新升级:AI超级框,你的全能助手来了!
  • Ollama部署DeepSeek隐患多?腾云悦智安全实验室教你如何加固防护!
  • 阿里新夸克AI超级框上线,能否撼动腾讯元宝的AI入口地位?
  • 英伟达推出DGX Spark与Station个人AI超算,Spark版售3000美元起
  • 百度文心大模型4.5及X1正式发布,全面免费开放,性能对标国际前沿
  • 315曝光信息黑洞后,辽宁云企智能科技经营异常被列入名录
  • 比尔·盖茨展望:AI将深度改造行业,人类生来不为工作?
  • 谷歌开源Gemma-3多模态大模型,性能强劲媲美业界顶尖
  • 阿里新夸克:AI超级框能否引领移动互联网新入口?
本栏最新
内容五巨头盈利路:降本找增量,未来空间何在?
内容五巨头盈利路:降本找增量,未来空间何在?
AI重塑旅行体验,携程同程飞猪等OTA平台迎来新变革时代
AI重塑旅行体验,携程同程飞猪等OTA平台迎来新变革时代
尼康Zf固件2.00大升级:鸟类追踪更精准,定焦镜头也能变焦!
尼康Zf固件2.00大升级:鸟类追踪更精准,定焦镜头也能变焦!
阿里天猫精灵团队打造AI智能眼镜,2025年底或将惊艳亮相
阿里天猫精灵团队打造AI智能眼镜,2025年底或将惊艳亮相
AI“一本正经”说假话,谁该为信息真实性把关?
AI“一本正经”说假话,谁该为信息真实性把关?
中美AI差距急剧缩小,美国领先地位不再稳固?
中美AI差距急剧缩小,美国领先地位不再稳固?

本文链接:http://www.28at.com/showinfo-45-12070-0.htmlMeta Llama 4口碑翻车:开源大模型竞争加剧下的失速之痛?

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:谷歌“带薪禁业”留人才,AI巨头竞争下员工却陷两难?

下一篇:内容五巨头盈利路:降本找增量,未来空间何在?

最新热点