AI开发编程开源项目视频创作

OmniAvatar-音频驱动视频生成

一张图+一段音，就能生成长视频

标签：AI视频生成开源模型开源项目

链接直达手机查看

夸克技术团队和浙江大学联合开源了OmniAvatar，这是一个创新的音频驱动全身视频生成模型，只需要输入一张图片和一段音频，OmniAvatar即可生成相应视频，且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外，还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。

像素级多层次音频嵌入策略

精准唇部运动+自然肢体动作

大多数现有方法通常依赖交叉注意力机制来引入音频特征，虽然效果良好，但会引入大量额外的计算开销，并且容易过度关注音频与面部特征之间的关系。

针对这一问题，团队提出了一种基于像素的音频嵌入策略，使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法，不仅可以自然地将唇部运动与音频内容对齐，还能够确保音频信息在整个视频像素中均匀分布，从而使模型生成更协调、更自然的身体动作来匹配音频。

基于LoRA的优化策略

平衡微调，兼顾质量与细节

目前，针对音频条件扩散模型的方法主要遵循两种策略：一种是训练完整的模型，另一种是仅微调特定层。

在进行完整训练时，团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看，由于模型过度拟合人类语音数据集，导致泛化能力差，容易生成不切实际或静态的内容，难以捕捉细节。但另一方面，仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差，唇形同步性能受损。

暂无评论

暂无评论...