#唇形同步

⁣
📰 复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

本文介绍 Hallo-Live 的实时文本驱动音视频数字人生成方法。研究团队将视频和语音的生成问题转化为流式双流扩散模型，并通过异步双流 DiT 与人类偏好蒸馏实现端到端的实时交互。为解决实时性与质量的矛盾，提出未来扩展注意力，使视频流在当前块的基础上可访问少量未来音频信息，从而提升嘴型同步与发音协同。另一个创新是将“偏好”直接蒸馏进学生模型：通过 VideoAlign、SyncNet、AudioBox 三类奖励，对蒸馏目标进行加权，形成奖励导向的蒸馏，与传统模仿教师分布不同。实验在两张 NVIDIA H200 上实现约 20.38 FPS、0.94 秒端到端延迟，质量接近离线重型模型，但具备显著速度优势。 Hallo-Live 的核心在于在保持流式因果生成的前提下，完成视频和音频的联合生成，并为数字人直播、虚拟主持等场景提供可部署的阶段性解决方案。未来仍需在低成本硬件上的优化与进一步提升同步性与语音自然度。

🏷️ #实时音视频 #数字人 #唇形同步 #蒸馏学习 #未来扩展注意力

🔗 原文链接