Meta Llama 4口碑翻车：开源大模型竞争加剧下的失速之痛？-28资讯网—

Meta Llama 4口碑翻车：开源大模型竞争加剧下的失速之痛？

2025-04-09 07:27:20 AI 232观看

摘要在人工智能领域，开源大模型Llama 4的发布风波持续发酵，引发广泛关注和讨论。4月8日，备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明，针对社群对meta新模型Llama 4排名的质疑，承诺将公开2000多场真人对比

在人工智能领域，开源大模型Llama 4的发布风波持续发酵，引发广泛关注和讨论。4月8日，备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明，针对社群对meta新模型Llama 4排名的质疑，承诺将公开2000多场真人对比测试的完整数据，并罕见地点名meta。

Chatbot Arena指出，meta应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好优化的定制化模型。平台正在更新排行榜的策略，以避免此类混淆再次发生。这一声明不仅是对当前事件的澄清，更是对整个大模型行业的一次警示。

Chatbot Arena由加州大学伯克利分校发起，通过真人盲测机制，让开发者和AI爱好者在平台上用相同问题向两款模型提问，对比回答内容并投票打分。这种独特的评测方式使其成为外界最为信赖的大模型排行榜之一。模型在Chatbot Arena排行榜的排名，直接影响其在媒体和开发者群体中的口碑与采纳率。

因此，当meta在4月5日发布最新一代开源大模型Llama 4，并迅速冲上Chatbot Arena排行榜第二，仅次于Google前脚发布的Gemini 2.5 Pro时，引起了所有人的好奇和期待。然而，很快社区发现，这一版本是未公开、定制化调优的实验模型，而非meta开源的正式版。争议由此爆发：这是否构成“刷榜”？Chatbot Arena是否被利用为营销工具？meta为何要如此操作？

不仅如此，在部分官方未展示的专业基准测试中，Llama 4的表现也不尽如人意，几乎垫底。许多首批尝试的用户在Reddit等社交平台上表达了失望，指出Llama 4在编程能力上的不足。有用户提到：“考虑到Llama-4-Maverick有402B的参数量，我为什么不直接使用DeepSeek-V3-0324呢？或者Qwen-QwQ-32B可能更合适——虽然性能相似，但它的参数量只有32B。”

回溯至4月5日，meta在官方博客上宣布Llama 4系列模型面向社区开源，包括Llama 4 Scout、Llama 4 Maverick以及仍在训练中的“教师模型”Llama 4 Behemoth，均首次采用混合专家（MoE）架构。其中，最受关注的Maverick版本拥有128个“专家”，170亿活跃参数（总参数为4000亿），meta将其描述为“同类最佳的多模态模型”。

然而，Llama 4发布后不久，情况便急转直下。首批用户对Llama 4的表现并不满意，尤其是在需要代码能力和严谨逻辑推理的场景中，Llama 4的表现并未兑现超越GPT、DeepSeek的承诺。在Aider Chat提供的Polyglot编程测试中，Maverick版本的正确率仅为16%，处于排行榜末尾，与其庞大的参数体量完全不符，甚至落后于规模更小的开源模型，如Google Gamma。

面对风评下滑和严厉质疑，meta团队迅速出面澄清。经手“后训练”的meta GenAI成员虞立成（Licheng Yu）表示，虚心聆听各方反馈，并希望能在下一版有所提升。他强调，meta从未为了刷点而针对测试集进行过度拟合。同时，meta GenAI的副总裁Ahmad Al-Dahle也在社交媒体上明确表示，meta没有在测试集上训练Llama 4。

尽管这些回应试图平息争议，但Llama 4的真实能力仍备受质疑。作为开源阵营中曾经“最有希望挑战OpenAI”的旗手，Llama 4原本承载着开发者与产业界的高度期待。然而，它在发布一周内便从“高光”跌入“信任危机”，成为大模型竞赛中一次罕见的口碑“滑铁卢”。

追根究底，Llama 4的问题不在于造假，而在于开源大模型竞争加剧下的失速。过去两年，meta凭借Llama 2和Llama 3逐步在开源模型市场上建立起“领先、可靠”的认知。然而，随着DeepSeek V3/R1的发布，开源与闭源模型的差距被扭转，且开源模型的发展速度大大加快。这让原本作为“开源领导者”的Llama面临更大的压力。

meta也未能控制住动作的变形。Llama-4-Maverick-03-26-Experimental针对对话模式的优化本身无可厚非，但“首发”Chatbot Arena的目的却路人皆知。在参数规模膨胀、架构复杂化（MoE）的同时，Llama 4很可能没有留出足够的测试和改进时间，才导致发布后不稳定的性能表现。

举报 0收藏 0打赏 0评论 0

更多>同类资讯