据TechCrunch报道,结合Meta官方信息,Meta近日发布了全新的人工智能模型Llama 4系列。该系列首次引入混合专家模型(MoE)架构,这种设计可以将复杂任务分解为更小的部分,从而显著提升效率。值得一提的是,混合专家架构也是DeepSeek声称能够大幅降低成本的关键技术。
Llama 4系列具备多模态处理能力,能够同时应对文本、图像、音频和视频任务,但目前仅支持美式英语。该系列包含三款模型,按参数规模从大到小依次为Behemoth、Maverick和Scout。
Behemoth拥有2万亿参数,目前仍在训练中。而Maverick和Scout作为“蒸馏”版本,已经开放给开发者和普通用户使用。Maverick的活跃参数为170亿,包含128个专家模型。Meta表示,Maverick在推理和代码生成方面表现优异,其主要竞争对手包括OpenAI的GPT-4o和Google的Gemini 2.0 Flash。此外,Meta还声称,Maverick在参数规模较小的情况下,性能已经超越DeepSeek v3。
Scout同样拥有170亿活跃参数,但仅包含16个专家模型。它对硬件需求较低,仅需一块NVIDIA H100 GPU即可运行。其上下文处理能力达到1000万词元(token),与Google的Gemma 3、Gemini 2.0 Flash-Lite以及Mistral 3.1形成竞争关系。
Meta强调,Llama 4系列在多项测试中表现优于竞争对手。此外,该系列模型将避免回答涉及政治或社会争议性问题的内容。