近日,视频编辑技术领域迎来了一次革命性的进展,通义万相正式宣布将其创新的视频编辑模型VACE进行开源。此次推出的VACE包含两个版本,Wan2.1-VACE-1.3B支持480P分辨率的视频处理,而更高规格的Wan2.1-VACE-14B则进一步支持到720P分辨率,为用户提供更多选择。
VACE的问世,彻底颠覆了传统的视频创作模式。用户无需再在各种模型和工具之间来回切换,仅凭VACE即可实现从文字生成视频、图像参考生成、局部编辑到视频扩展等一系列操作,极大地提升了创作的便捷性和效率。这一站式视频创作体验,让视频编辑变得更加灵活和高效。
VACE的核心竞争力在于其强大的可控重绘能力。通过基于人体姿态、运动光流、结构保持、空间运动和着色等多种控制生成技术,VACE能够轻松实现视频生成后的细致调整。它还支持基于主体和背景参考的视频生成,使得调整人物姿态、动作轨迹或场景布局等操作变得易如反掌。这一能力的背后,是VACE先进的多模态输入机制。
VACE的多模态输入机制将文本、图像、视频、Mask和控制信号等多种输入形式整合到一个统一的系统中。无论是图像输入中的物体参考图或视频帧,还是视频输入中的抹除、局部扩展等操作,VACE都能应对自如。用户还可以通过0/1二值信号来指定编辑区域,并通过深度图、光流、布局、灰度、线稿和姿态等控制信号来进一步精确控制。
VACE不仅支持对视频内容的替换、增加和删除等操作,还能在时间维度上根据任意片段或首尾帧补全整个视频时长。在空间维度上,VACE同样表现出色,能够对画面边缘或背景区域进行扩展生成,如背景替换功能,可以在保留主体不变的前提下,根据Prompt更换背景环境。这些功能的实现,得益于VACE强大的多模态输入模块和Wan2.1的卓越生成能力。
更VACE还支持多种单任务能力的自由组合,打破了传统专家模型各自为战的限制。作为统一模型,VACE能够自然融合文生视频、姿态控制、背景替换、局部编辑等原子能力,无需为单一功能单独训练新模型。这种灵活组合机制不仅简化了创作流程,还极大地拓展了AI视频生成的创意边界。
例如,通过组合图片参考与主体重塑功能,VACE可以实现视频中物体的替换;通过组合运动控制与首帧参考功能,则可以实现静态图片的姿态控制。还可以将图片参考、首帧参考、背景扩展与时长延展功能相结合,将竖版图拓展为横屏视频,并在其中加入参考图片中的元素。这些功能的实现,都得益于VACE提出的灵活统一的输入范式——视频条件单元VCU。
VCU将多模态的各类上下文输入总结为文本、帧序列、mask序列三大形态,从而在输入形式上统一了四类视频生成与编辑任务。VCU的帧序列和Mask序列在数学上可以相互叠加,为多任务的自由组合创造了有利条件。在技术实现方面,VACE需要解决的一大难题是如何将多模态输入统一编码为扩散Transformer可处理的token序列。为此,VACE对VCU输入中的frame序列进行概念解耦,并通过隐空间编码和可训练参数映射等步骤,成功将多模态输入转化为DiT的token序列。
在训练策略上,VACE对比了全局微调与上下文适配器微调两种方案,并最终选择了收敛速度更快且能避免基础能力丢失风险的上下文适配器微调方法。通过定量评测可以看出,相比1.3Bpreview版本,本次开源的VACE系列模型在多个关键指标上均有显著提升。
对于广大开发者而言,VACE的开源无疑是一个巨大的福音。他们可以通过GitHub(https://github.com/Wan-Video/Wan2.1)、魔搭(https://modelscope.cn/organization/Wan-AI)、Hugging Face(https://huggingface.co/Wan-AI)等平台获取VACE的源代码和模型资源,并在国内站(https://tongyi.aliyun.com/wanxiang/)和国际站(https://wan.video)上获取更多信息和支持。
举报 0收藏 0打赏 0评论 0分享 0 更多>同类资讯小马智行无人驾驶测试车意外起火,车身变形,起火原因待查!05-15
脑机接口新突破:意念操控技术让“心想事成”不再是梦05-15
仿生合成橡胶航空轮胎试飞验证成功,中国航空轮胎技术获重大突破!05-15
淘宝新功能:商家可屏蔽高退款率用户,你怎么看?05-15西湖大学团队揭秘超导界面电子向列性演化新特征05-15
文远知行广州核心城区:8条自动驾驶线路,24小时出行新体验!05-15
漫威新剧《钢铁之心》预告来袭,反派斗篷登场,6月24日首播连更三集!05-15
IDC预测:中国AR/VR市场将迎来爆发,五年复合年均增长率高达41.1%05-15
漳州核电“华龙一号”4号机组模块三成功吊装,安全质量全程可控!05-15
《蓝精灵大电影》预告来袭,蓝妹妹带队勇闯现实,7月18日北美见!05-15
卡塔尔航空大手笔!波音史上最大宽体客机订单诞生05-15AMD RX 9060 XT显卡渲染图曝光,双风扇设计引关注05-15
绿灯已亮,你的车为何还在“犹豫”?05-15
Coinbase纳入标普500,加密货币行业主流化提速?业内人士认为,Coinbase的加入,正悄悄改写华尔街的权力结构,也意味着加密货币行业正式进入主流金融视野,监管机构和传统投资者对数字资产的接受度提升。 全球市场风险情绪的复苏和股票市场的强劲表现,增强了投…05-15
谷歌DeepMind新突破:AlphaEvolve引领算法发现自动化革命05-15点击查看更多 +全站最新
中俄联手!月球核电站将如何照亮深空探索之路?
140吨级重复使用液氧甲烷发动机整机试验成功,航天科技再突破!
比亚迪纯电K-Car来袭,续航180km,能否撼动日本轻自动车市场?
奇瑞“守护者”智慧安全系统发布,全球安全标准再升级!
奥迪SUV未来规划曝光:Q系列新车将密集上市,电动化成趋势
吉利博越L焕新上市倒计时!5月13日见,颜值内饰全面升级,预售价10.59万起热门内容
脑机接口新突破:意念操控技术让“心想事成”不再是梦
仿生合成橡胶航空轮胎试飞验证成功,中国航空轮胎技术获重大突破!
淘宝新功能:商家可屏蔽高退款率用户,你怎么看?
文远知行广州核心城区:8条自动驾驶线路,24小时出行新体验!
漫威新剧《钢铁之心》预告来袭,反派斗篷登场,6月24日首播连更三集!
IDC预测:中国AR/VR市场将迎来爆发,五年复合年均增长率高达41.1%
本文链接:http://www.28at.com/showinfo-16-149919-0.html阿里通义万相VACE开源:视频编辑迎来一站式创新模型
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。