📰 重磅开源!通义万相最新模型来了
通义万相全新发布的音频驱动视频模型Wan2.2-S2V,用户只需一张图片和一段音频,即可生成高质量的数字人视频,极大提升视频创作效率。该模型支持生成分钟级长视频,适用于数字人直播、影视制作及AI教育等多个行业。
Wan2.2-S2V具备复杂场景驱动能力,能够驱动真人、卡通、动物等多种类型的图片,支持肖像、半身和全身画幅。通过文本引导和音频驱动的结合,模型实现了更细致的动作控制,提升了生成视频的互动性和表现力。
该模型采用层次化帧压缩技术,显著降低历史帧的Token数量,从而保障长视频的稳定生成。同时,支持多种分辨率的训练与推理,满足不同场景需求。通义团队通过构建大规模音视频数据集,优化了模型性能,助力多行业落地应用。
🏷️ #音频驱动 #视频生成 #数字人 #长视频 #多分辨率
🔗 原文链接
📰 重磅开源!通义万相最新模型来了
通义万相全新发布的音频驱动视频模型Wan2.2-S2V,用户只需一张图片和一段音频,即可生成高质量的数字人视频,极大提升视频创作效率。该模型支持生成分钟级长视频,适用于数字人直播、影视制作及AI教育等多个行业。
Wan2.2-S2V具备复杂场景驱动能力,能够驱动真人、卡通、动物等多种类型的图片,支持肖像、半身和全身画幅。通过文本引导和音频驱动的结合,模型实现了更细致的动作控制,提升了生成视频的互动性和表现力。
该模型采用层次化帧压缩技术,显著降低历史帧的Token数量,从而保障长视频的稳定生成。同时,支持多种分辨率的训练与推理,满足不同场景需求。通义团队通过构建大规模音视频数据集,优化了模型性能,助力多行业落地应用。
🏷️ #音频驱动 #视频生成 #数字人 #长视频 #多分辨率
🔗 原文链接