阿里巴巴正式对外开源了其先进的视频生成与编辑模型通义万相Wan2.1-VACE。这款模型不仅功能强大,而且兼容性广泛,能够一次性涵盖从文字到视频的生成、图像参考视频制作、视频重绘、局部编辑、背景延展及时长延展等一系列基础操作。
Wan2.1-VACE本次共开源1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行。
主要能力:
1.视频重绘:支持通过景深、姿态、运动轨迹等多维度控制条件生成新视频。
2.局部编辑:实现视频对象的增删改,例如擦除人物、替换物体(如熊猫变狮子)。
3.图像参考生成:支持单图/多图作为主体或背景参考,例如将卡通形象与实景结合。
4.背景延展:自动扩展视频画幅(如横屏变超宽屏),或生成新背景替换绿幕。
5.时长延展:支持在时域上的生成变化,如帧延续、片段延续、相接等。
多任务组合,一次性完成视频增删改扩
Wan2.1-VACE的核心突破在于单模型支持多任务灵活组合处理,无需传统多模型串联的复杂工作流。
其支持任意基础能力的自由组合,用户无需针对特定功能训练一个新的专家模型,即可完成更复杂的任务,极大地扩展了AI视频生成的想象空间。
例如:在视频中框选区域替换为猫,同时参考原视频动作序列和新猫图片,实现局部编辑+动作迁移。
这种灵活的组合机制,不仅大幅简化创作流程,也极大拓展了 AI 视频生成的创意边界,例如:
组合图片参考 + 主体重塑功能 → 视频中物体替换
组合运动控制 + 首帧参考功能 → 静态图片的姿态控制
组合图片参考 + 首帧参考 + 背景扩展 + 时长延展 → 将竖版图拓展为横屏视频,并且在其中加入参考图片中的元素。

相关导航
暂无评论...