百度近日正式推出了其蒸汽机2.0大模型,这一创新技术标志着全球首个支持中文音视频一体化生成的大模型的问世。蒸汽机2.0在原有图像生成视频的基础上,新增了“有声版”,实现了环境音效、人声对白及嘴型同步的全方位支持,真正做到了画面与声音的同步生成。
该模型的最大亮点在于其“形神音容”一体化生成能力,将以往需要分别完成的视频画面、配音效与对白同步三个步骤,整合为一次生成完成,极大地提升了效率。这一突破性的技术革新,被形象地比喻为“三步并一步”。
在价格方面,蒸汽机2.0 Turbo有声版的定价为每5秒1.4元,据百度透露,这一价格相较于行业平均成本,大约低了三成,显示出其强大的竞争力。
从技术细节上看,蒸汽机2.0模型引入了更为复杂的镜头语言,如“绕镜”等动态运镜方式,同时配合大规模提示词理解能力的升级,使得用户即使输入简短的自然语言,也能生成画面流畅、镜头调度自然的视频内容。这一改进,无疑为用户提供了更加便捷和高效的使用体验。

在声音方面,蒸汽机2.0模型不仅同步生成环境声与人声,还努力做到人物动作与唇形的精准匹配。该模型支持“多人对话、嘴型对齐、角色情绪同步”等多模态生成任务,背后由“多模态潜在空间规划”机制支撑,能在建模阶段统一规划角色身份、语气、对话内容与视觉呈现,确保生成的视频内容整体感强、叙事一致。
百度还特别强调了蒸汽机2.0在中文场景下的适配能力,包括中文发音结构的唇形匹配、语境识别与本地化音色模拟,使得生成的中文视频内容在语境下具备更高的拟真度。
在实际体验中,蒸汽机2.0展现了其多样化的生成能力。无论是冲浪者与巨浪共舞的震撼场景,还是海底世界美丽鱼群的细腻描绘,蒸汽机2.0都能以逼真的画面和流畅的动作呈现。同时,在创意简单表达、极速生成的Lite版本中,虽然背景人物动作偶尔有些僵硬,但整体画面氛围和细节处理仍令人印象深刻。

在有声版体验中,蒸汽机2.0对于音效和对话的生成也展现出了不俗的实力。尽管在初次尝试中,模型对于提示词的理解存在些许偏差,但在调整提示词后,模型能够准确地还原角色的台词、音色和语气,同时嘴型同步效果也十分清晰,声音生成与画面的衔接自然流畅。
百度蒸汽机2.0的推出,无疑为音视频生成领域带来了新的突破。虽然声音生成的准确性和口型协调仍有待进一步提升,但其在“形神音容”一体化生成方向上迈出的这一步,无疑为未来的技术发展奠定了坚实的基础。
举报 0收藏 0打赏 0评论 0分享 0 更多>同类资讯科大讯飞2025上半年财报亮点:营收破百亿,星火大模型技术再升级本报讯 (记者徐一鸣)8月21日晚间,科大讯飞股份有限公司(以下简称“科大讯飞”)发布2025年上半年业绩报告。报告期内,公司营收首次突破百亿元,达109.11亿元,同比增长17.01%。此外,销售回款首次突…08-22首批科创创业人工智能ETF上报,10家基金公司角逐市场新热点证监会网站显示,8月19至8月22日,首批科创创业人工智能ETF的上报数量已达10只,基金管理人分别为华泰柏瑞基金、易方达基金、华安基金、工银瑞信基金、国联安基金、富国基金、永赢基金、泰康基金、景顺长城基金、…08-22
广西人工智能产业投资基金成立,33亿巨资助力科技创新08-22
高途上海新设心语智学,布局AI领域多项创新业务08-22OpenAI高层再变动,首席人才官离职,与Meta等科技巨头人才争夺愈演愈烈08-22专家质疑Google“五滴水”说法:AI环境影响评估或存漏洞08-22清华团队发布GUAVA框架:0.1秒单照生成3D化身,引领3D技术革新潮流08-22谷歌Fitbit新升级:AI教练来袭,Gemini模型打造专属健康伙伴08-22谷歌AI新突破:Gemini单次回答能耗低至微波炉一秒,引领绿色AI革命08-22OpenAI布局印度市场,新德里办公室即将启航08-22蚂蚁集团与北医三院联袂,共筑AI医疗创新实验室,开启智能就医新篇章08-22AWS首席执行官:AI无法轻易取代初级员工,重视人才培养是关键08-22OpenAI首席人力官Julia Villagra闪电离职,上任不足半年引关注08-22DeepSeek-V3.1发布:采用UE8M0 FP8精度,专为下一代国产芯片设计08-22谷歌Gemini大模型能耗揭秘:每次回答仅耗微波炉1秒电量08-22点击查看更多 +全站最新
TCL科技蝉联《财富》中国科技50强,以创新引领全球显示技术新篇章
魅族22新机延期引热议,高管坦言:追求完美致伤害品牌,9月中上旬发布
iPhone 17系列新爆料:TechWoven保护壳及配置详情抢先看
梅西百货携手亚马逊广告,零售广告领域将迎来怎样变革?
中国超市百强榜出炉:行业洗牌加剧,盒马领跑胖东来服务获赞却未进前十
Meta百亿云约牵动AI战局,云端巨头新较量即将上演?热门内容
百度蒸汽机2.0有声版体验:钟馗开口,音画同步效果初显
广西人工智能产业投资基金成立,33亿巨资助力科技创新
高途上海新设心语智学,布局AI领域多项创新业务
vivo三十周年:发布轻便MR头显,影像生态战略全面革新
霄云科技发布银河存储,专为AI场景打造,重塑企业级存储性能标杆
中国移动安徽公司:信息技术引领低空经济,打造城市运行新引擎
本文链接:http://www.28at.com/showinfo-45-26794-0.html百度蒸汽机2.0有声版体验:钟馗开口,音画同步效果初显
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。