近日,字节跳动旗下的Seed团队在开源领域迈出了重要一步,正式推出了Seed-OSS系列模型。这一系列模型专为长上下文处理、推理任务、智能体交互及通用场景设计,其上下文窗口长度达到了前所未有的512k,这一数字是业界常规标准的四倍,甚至超越了GPT-5的两倍,相当于能够一次性处理约1600页文本的信息量。8bO28资讯网——每日最新资讯28at.com
8bO28资讯网——每日最新资讯28at.com
Seed-OSS系列模型不仅针对推理任务进行了深度优化,还创新性地引入了思维预算功能,允许用户根据实际需求灵活调整模型的推理成本。这一特性使得开发者能够在保证模型性能的同时,有效控制资源消耗,提升用户体验。8bO28资讯网——每日最新资讯28at.com
此次开源的Seed-OSS系列包括三个版本:基础模型Seed-OSS-36B-Base、无合成数据基础模型Seed-OSS-36B-Base-woSyn,以及经过指令微调的Seed-OSS-36B-Instruct。其中,指令微调后的Seed-OSS-36B-Instruct在多个领域的基准测试中表现出色,取得了同量级开源模型中的七项最佳性能(SOTA),整体实力超越了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,与Qwen3-30B-A3B-Thinking-2507在多数领域不相上下。8bO28资讯网——每日最新资讯28at.com
8bO28资讯网——每日最新资讯28at.com
值得注意的是,Seed团队在发布这一系列模型时,采取了极为“研究友好”的策略。考虑到合成指令数据在预训练中的潜在影响,团队特别发布了无合成数据基础模型,为科研工作者提供了更多样化的研究选项。Seed-OSS系列模型还支持4位和8位格式的量化处理,进一步降低了内存需求,提升了模型的应用灵活性。8bO28资讯网——每日最新资讯28at.com
在技术上,Seed-OSS系列模型采用了12万亿个token的预训练数据,并沿用了当前主流的因果语言模型架构。这一系列模型均为稠密模型,未采用MoE等复杂架构,而是结合了RoPE旋转位置编码、GQA注意力机制、RMSNorm归一化及SwiGLU激活函数等高效组件,以提升训练稳定性和推理性能。其512k的上下文窗口并非后续扩展而来,而是通过原生训练实现,能够一次性处理数十万字的内容。8bO28资讯网——每日最新资讯28at.com
思维预算功能的引入,使得开发者可以根据任务复杂度灵活调整模型推理成本。对于简单任务,模型思维链较短,分数波动不明显;而对于复杂任务,随着思维预算的增加,模型分数也会相应提升。若未设置思维预算,Seed-OSS将默认无思考长度限制;若指定预算,则建议优先考虑512的整数倍值,因为这些区间上的模型训练更为充分。8bO28资讯网——每日最新资讯28at.com
Seed-OSS系列模型的发布,在开源社区内引起了广泛关注。Hugging Face的华人工程师Tiezhen Wang评价称,这一系列模型非常适合进行消融研究,能够以较低成本探索不同组件对大模型性能的影响。网友们也纷纷表示,如此规模的基础模型在开源界实属罕见,长上下文能力对于实际应用具有重大意义。8bO28资讯网——每日最新资讯28at.com
近年来,开源已成为技术创新的重要推动力,连OpenAI等原本坚持闭源策略的厂商也开始逐步开源模型。字节跳动此次将核心语言模型贡献给社区,无疑为开源社区的后续研究提供了更多基础模型的选择,进一步推动了人工智能技术的开放与发展。8bO28资讯网——每日最新资讯28at.com
举报 0收藏 0打赏 0分享 0 更多>同类资讯
vivo三十周年:发布轻量MR头显,影像生态战略全面革新正值企业三十周年之际,vivo不仅重磅发布了混合现实头显探索版,还宣布了影像技术战略及影像文化生态的全新布局,并揭晓了2025 vivo影像加手机摄影大赛结果。作为国内首家同时布局手机与MR的科技企业,viv…08-22

vivo胡柏山:MR技术引领家庭机器人时代,共筑智能生活新愿景胡柏山在阐述vivo科技战略蓝图时提到:“我们致力于通过手机AI、影像和MR能力,短期满足用户对大屏沉浸感的需求,长远作为机器人的眼睛和大脑,攻克家庭这一非结构化场景下的‘感知-决策’难题,搭建未来家庭机器人…08-22

百度Q2财报:广告业务下滑,AI新业务成业绩增长新动力百度新任CFO何海建在此次电话会上称,在过去的几个季度里,百度加大了AI投资力度,但由于AI搜索的商业化仍处于非常早期的阶段,尚未扩大规模,预计百度的收入和利润率在短期内面临相当大的压力,第三季度将特别具有…08-22

文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新革命08-22

文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新纪元08-22

AI陪伴市场升温,雷军马斯克等资本大佬入局,长期记忆痛点待解郭戈称,资本追逐这一赛道并非偶然,因为陪伴本身就是玩具的核心价值,而AI的加入则赋予其“情绪价值”,扩大了市场蛋糕。 万物时创始人万一(Roy)也向时代周报记者强调,“情感陪伴一定是长期的本质需求,和文化消费…08-22

智汇教育未来:名校长共探基础教育数字化变革新航向来自全国多地的名校长与专家学者齐聚一堂,围绕基础教育数字化变革、学校数字转型与智能升级、校长数字化领导力等核心议题,深入交流联盟内外部实践经验,共话智慧教育发展新路径。 论坛由教育数字化行动百校联盟联合北京师…08-22生成式AI投资热,但95%企业未见回报,AI价值何在?08-22DeepSeek-V3.1重磅升级:提升思考效率,强化Agent功能新体验08-22AI数学新突破:GPT-5 Pro独立推导数学结论,OpenAI总裁赞其为智能新里程碑08-22

DeepSeek-V3.1发布,专为下一代国产芯片设计,性能大幅提升08-22AI赋能旅行社:马蜂窝绳志成详解智能化转型新策略08-22OpenAI员工完成60亿美元股票出售,公司估值跃升至5000亿美元08-22

Lumen强化400Gbps数据中心连接,赋能AI经济,加速企业数字化转型Lumen Technologies对其美国网络的数据中心和云连接进行了重大升级,通过战略性扩张为大都市区提供高速数据中心连接能力。 Lumen表示,这将使客户能够轻松连接到数据中心和云接入点,扩展企业应用…08-21

霄云科技银河存储:AI时代的高性能存储中枢,引领存储效率新革命这款专为人工智能模型训练、高性能计算(HPC)、生命科学等场景设计的存储系统,以“极速、高可用、全链路可视”为核心,重新定义企业级存储的性能边界。 ▪支持百万级IOPS与微秒级延迟,通过并行文件系统与IB高速…08-21点击查看更多 +
全站最新
科创板成长ETF开盘微涨,重仓科技股多数上扬

机器人ETF嘉实微涨开盘,重仓股表现各异,汇川技术、科大讯飞领涨

中国载人登月倒计时:2030年前稳扎稳打,美国阿尔忒弥斯计划再陷困境

吉利AI座舱:让汽车变身“智慧管家”,重构人车交互新体验

广濑电机全球首推:高电流抗振“FX31”板对板连接器,引领车载电子革新

百度蒸汽机2.0音视频一体化模型升级,终结AIGC视频“无声时代”
热门内容- 雷军抖音账号变动引热议:武汉大学标签悄然消失?
- 阿里开源480B参数编程模型Qwen3-Coder,超越Kimi K2,强化学习训练细节公开
- 云计算新纪元:云智融合引领未来趋势,安全与技术创新并行
- 阿里巴巴1688升级AI服务:新品App与查询工具上线,赋能中小企业高效采购
- 华为Mate 80系列爆料:全新麒麟9030,eSIM与低轨卫星通讯技术加持
- 浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑
- 2025年人工智能发展蓝图:趋势、格局与行业应用深度剖析
- 光伏电站智能化管理:提升效率,降低成本,助力“双碳”目标实现
- 雷军抖音账号母校标签“武汉大学”消失,或涉平台隐私调整
- 国家网信办约谈英伟达:要求阐释H20算力芯片安全隐患及后门风险
- 字节跳动AI底层架构领跑2025:技术、组织与财务全面赋能AI时代
- 阿里自研旗舰AI眼镜WAIC 2025首发,探索智能终端新未来
- 英伟达H20芯片安全风险引关注,网信办约谈要求说明“追踪定位”等技术详情
- 马斯克将为Grok Heavy用户带来AI视频生成器及虚拟男友“Valentine”测试版
- 清华系黑马!MonkeyCode成Cursor最强平替,保障代码安全
本栏最新
百度Q2财报:广告业务下滑,AI新业务成业绩增长新动力

文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新革命

文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新纪元

AI陪伴市场升温,雷军马斯克等资本大佬入局,长期记忆痛点待解

智汇教育未来:名校长共探基础教育数字化变革新航向

DeepSeek-V3.1发布,专为下一代国产芯片设计,性能大幅提升