在人工智能领域,大语言模型(LLM)的演进从未停歇,尽管整体架构自GPT-2以来并未发生根本性变化。近日,Sebastian Raschka博士通过深入分析OpenAI开源的gpt-oss模型(包括120B和20B版本),带领读者回顾了从GPT-2到gpt-oss的技术演进之路,并将gpt-oss与另一开源模型Qwen3进行了详细对比。0eN28资讯网——每日最新资讯28at.com
8月5日,就在GPT-5发布的前两天,OpenAI宣布推出两款开源大语言模型:gpt-oss-120b和gpt-oss-20b。这是自2019年GPT-2发布以来,OpenAI首次开放模型权重,且得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。0eN28资讯网——每日最新资讯28at.com
Raschka博士在其文章《从GPT-2到gpt-oss:架构进步分析》中,详细解析了从GPT-2到gpt-oss的架构演进。他指出,尽管两者在整体架构上相似,但gpt-oss在多个细节上进行了优化,如移除Dropout、采用RoPE替代绝对位置编码、激活函数从GELU转向Swish/SwiGLU等。0eN28资讯网——每日最新资讯28at.com
首先,Dropout技术虽然在早期Transformer架构中被广泛使用,但现代LLM发现其并不能显著提升性能,反而可能因单轮训练模式导致下游任务表现下降。因此,gpt-oss选择了移除Dropout。0eN28资讯网——每日最新资讯28at.com
其次,在位置编码方面,gpt-oss采用了RoPE(旋转位置嵌入)替代传统的绝对位置嵌入。RoPE通过对query和key向量施加位置相关的旋转来编码位置信息,这种方式更加高效且逐渐成为LLM的标配。0eN28资讯网——每日最新资讯28at.com
在激活函数的选择上,gpt-oss从GELU转向了Swish/SwiGLU。Swish的计算成本略低于GELU,且在实践中表现良好,尽管两者在建模性能上的差异并不显著。0eN28资讯网——每日最新资讯28at.com
更重要的是,gpt-oss对前馈网络模块进行了重构,引入了带门控的GLU(Gated Linear Unit)变体,如SwiGLU。这种结构不仅性能更好,而且总参数量更少,通过门控带来的额外乘法交互增强了模型的表达能力。0eN28资讯网——每日最新资讯28at.com
gpt-oss还采用了Mixture-of-Experts(MoE,专家混合)技术,用多个前馈模块替代单个前馈模块,并在每个token生成步骤中只启用其中一个子集。这种做法显著增加了模型的总参数量,但通过稀疏性在推理阶段保持了高效率。0eN28资讯网——每日最新资讯28at.com
在注意力机制方面,gpt-oss引入了分组查询注意力(GQA)替代传统的多头注意力(MHA),并通过滑动窗口注意力进一步降低内存占用和计算成本。同时,gpt-oss还用RMSNorm替代了LayerNorm,以提升训练效率。0eN28资讯网——每日最新资讯28at.com
0eN28资讯网——每日最新资讯28at.com
在与Qwen3的对比中,gpt-oss展现出不同的设计思路。Qwen3是一个更深的架构,而gpt-oss则更宽。在MoE的使用上,gpt-oss采用了少量“大专家”策略,而Qwen3则倾向于更多、更小的专家。gpt-oss在注意力机制中引入了偏置项和注意力池,以稳定注意力机制。0eN28资讯网——每日最新资讯28at.com
在性能方面,gpt-oss与OpenAI自研的闭源模型以及Qwen3相当。尽管gpt-oss在某些任务上可能表现出较高的幻觉倾向,但其作为推理型模型的设计,使其在成本、算力和准确度之间找到了良好的平衡。0eN28资讯网——每日最新资讯28at.com
随着gpt-oss的开源,更多开发者将能够利用这一强大工具进行本地或私有化部署,推动人工智能技术在各领域的广泛应用。0eN28资讯网——每日最新资讯28at.com
举报 0收藏 0打赏 0分享 0 更多>同类资讯中欧AI合作:共拓发展空间,共筑治理新未来] 作为全球人工智能(AI)赛道的两大劲旅,欧盟目前主要以标准与规则为导向深化AI的基础研究与垂直应用,而中国主要以创新与发展为导向拓展AI的研发空间与立体场景。同时,中国可利用AI技术与应用的差异化优势…08-18石头科技Q2财报高增长,华安证券力挺:智能清洁市场前景广阔其次,石头科技在欧亚市场的占有率显著提高,这不仅是品牌影响力的体现,也显示了消费者对其产品的信任和认可。 总的来说,石头科技的2025年第二季度财报展示了其在智能清洁领域的持续增长潜力,尽管面临一些挑战,但凭…08-18

人大新研:AI助手实现本地网络双搜,打造高效智能搜索新方案更重要的是,HierSearch不仅答案质量更高,搜索效率也更好,避免了传统系统经常出现的无效搜索问题。 在实际应用效果的分析中,研究团队发现HierSearch在多知识源环境中的搜索成功率和推理成功率都显著…08-18

AI重塑广东网络视听:超高清智能化引领文化传播新时代张良杰教授预言,数据资产化将是网络视听领域下一步发展的关键走向。这一变化不仅显著提升了制作效率,更为众多中小型内容创作者打开了新的发展空间。他指出,网络音视频数据在大数据总量中占据了60%至70%的份额,如何…08-18讯飞医疗科技股价大涨15.38%,8月14日成交额达4256.80万港元讯飞医疗科技市盈率 38.45 倍,行业排名第 25 位;其他同行业公司如平安好医生(BG01.HK/558))为 52.68倍、阿里健康(BG88.HK/499)为 48.35 倍、医渡科技(BG033.…08-18

华为Pura 80系列霸榜2025中国电信AI与卫星通信评测例如在AI社交方面,华为Pura 80系列推出的AI互动主题舞林萌主,能够通过生动有趣的动作与人交互并呈现不同状态,还能智能识别音乐、充电、佩戴耳机等使用场景,自动触发相应的动画效果,使其成为许多用户喜爱的…08-17

奇安信亮相2025数博会,以AI驱动数据安全,共探数字经济安全新路径随着人工智能大模型技术的爆发式发展,数据作为大模型训练与应用的核心“燃料”,其安全防护已成为行业不可回避的核心关切。本届数博会,奇安信将以“AI赋能数据安全”为主题,全面展示AI时代数据安全防护最新成果。奇…08-17ChatGPT负责人:GPT-5仍存编造信息问题,用户需核对答案08-17

科大讯飞智能机器人闪耀世界机器人大会,展现认知智能新高度在这场汇聚全球顶尖机器人技术与成果的科技盛宴上,科大讯飞携其最新研发的智能机器人产品惊艳亮相,凭借依托星火大模型打造的强大“大脑”,展现出机器人在认知智能领域的突破性进展,成为大会焦点,引发广泛关注。 科大讯…08-17

AI赋能广东网络视听:超高清+智能化开启文化传播新篇章2025年是国家超高清产业发展的元年,人工智能(AI)技术正深刻改变网络视听产业的生态。深圳大学智能服务计算研究中心主任张良杰在接受羊城晚报采访时表示,AI技术的应用不仅提升了视听内容的精度和体验感,还推动了…08-17

华尔街大空头巴里二季度转向,大手笔买入阿里京东看涨期权华尔街知名对冲基金经理迈克尔·巴里在今年二季度对中概股态度发生重大转变。这一操作与其一季度做空中概股的策略形成鲜明对比,显示出其对中国资产前景判断的显著调整。 自2022年四季度起,巴里开始布局中国资产,对阿…08-17

科大讯飞引领人形机器人新纪元:大模型技术加速场景应用落地其机器人超脑平台总经理刘可为指出,大模型技术的进步极大地推动了认知智能的发展,使机器人具备多轮对话、指令执行等能力。通过技术共享与合作交流,科大讯飞汇聚各方力量,形成了强大的产业合力,共同推动人形机器人技术不…08-17

华尔街大空头巴里二季度调仓:清空中概股看跌,力挺阿里京东看涨华尔街知名对冲基金经理迈克尔·巴里在今年二季度对中概股态度发生重大转变。这一操作与其一季度做空中概股的策略形成鲜明对比,显示出其对中国资产前景判断的显著调整。 自2022年四季度起,巴里开始布局中国资产,对阿…08-17

奇安信亮相2025数博会:AI驱动数据安全,共筑数字经济安全底座在技术创新方面,奇安信积极将人工智能、大数据等前沿技术应用于数据安全和个人信息保护解决方案中;在标准制定方面,奇安信参与工信部相关科技项目及国家数据安全标准制定,为行业规范发展贡献智慧;在数据安全生态体系建设…08-17

AI热潮下,GPU成网络供应商新金矿思科首席执行官查克·罗宾斯(Chuck Robbins)周三在公司2025财年第四季度财报电话会议上与分析师交谈时表示,第四季度来自网络规模客户的AI基础设施订单超过8亿美元,2025财年则将达到20亿美元…08-16点击查看更多 +
全站最新
2026款深蓝L07焕新登场,全系标配华为智驾,打造新能源轿车新标杆

晨光涂料:科技引领转型,成就国际舞台新辉煌

长安第三代UNI-V智能运动轿跑上市,售价10.29万-11.99万

比亚迪天神之眼杭州站智驾盛宴落幕,L4级泊车“敢赔”引领行业新风尚

欧洲车企裁员潮起,中国新能源车企海外崛起成新趋势

全新MG4降价来袭,7万级纯电小车新选择,能否在中国市场逆袭?
热门内容- 雷军抖音账号变动引热议:武汉大学标签悄然消失?
- 阿里开源480B参数编程模型Qwen3-Coder,超越Kimi K2,强化学习训练细节公开
- 阿里开源Qwen3-Coder,AI编程能力媲美Claude4,新手一天顶资深一周
- 阿里巴巴1688升级AI服务:新品App与查询工具上线,赋能中小企业高效采购
- 华为Mate 80系列爆料:全新麒麟9030,eSIM与低轨卫星通讯技术加持
- 浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑
- 华为鸿蒙5.1系统7月31日升级:Pura80领衔,30余款设备迎新体验
- 光伏电站智能化管理:提升效率,降低成本,助力“双碳”目标实现
- 雷军抖音账号母校标签“武汉大学”消失,或涉平台隐私调整
- 国家网信办约谈英伟达:要求阐释H20算力芯片安全隐患及后门风险
- 阿里自研旗舰AI眼镜WAIC 2025首发,探索智能终端新未来
- 字节跳动AI底层架构领跑2025:技术、组织与财务全面赋能AI时代
- 马斯克将为Grok Heavy用户带来AI视频生成器及虚拟男友“Valentine”测试版
- 英伟达H20芯片安全风险引关注,网信办约谈要求说明“追踪定位”等技术详情
- 2025年人工智能发展蓝图:趋势、格局与行业应用深度剖析
本栏最新
人大新研:AI助手实现本地网络双搜,打造高效智能搜索新方案

AI重塑广东网络视听:超高清智能化引领文化传播新时代

华为Pura 80系列霸榜2025中国电信AI与卫星通信评测

奇安信亮相2025数博会,以AI驱动数据安全,共探数字经济安全新路径

科大讯飞智能机器人闪耀世界机器人大会,展现认知智能新高度

AI赋能广东网络视听:超高清+智能化开启文化传播新篇章