⁣📰 重磅开源！通义万相最新模型来了通义万相全新发布的音频驱动视频模型Wan2.2-S2V，用户只需一张图片和一段音频，即可生成高质量的数字人视频，极大提升视频创作效率

⁣
📰 重磅开源！通义万相最新模型来了

通义万相全新发布的音频驱动视频模型Wan2.2-S2V，用户只需一张图片和一段音频，即可生成高质量的数字人视频，极大提升视频创作效率。该模型支持生成分钟级长视频，适用于数字人直播、影视制作及AI教育等多个行业。

Wan2.2-S2V具备复杂场景驱动能力，能够驱动真人、卡通、动物等多种类型的图片，支持肖像、半身和全身画幅。通过文本引导和音频驱动的结合，模型实现了更细致的动作控制，提升了生成视频的互动性和表现力。

该模型采用层次化帧压缩技术，显著降低历史帧的Token数量，从而保障长视频的稳定生成。同时，支持多种分辨率的训练与推理，满足不同场景需求。通义团队通过构建大规模音视频数据集，优化了模型性能，助力多行业落地应用。

🏷️ #音频驱动 #视频生成 #数字人 #长视频 #多分辨率

🔗 原文链接