搜索引擎 + AI 驱动的行业新闻

【覆盖行业】
信保 |出口 |金融
制造 |农业 |建筑 |地产
零售 |物流 |数智

【访问入口】
hangyexinwen.com

【新闻分享】
点击发布时间即可分享

【联系我们】
xinbaoren.com
(微信内打开提交表单)

📰 复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

本文介绍 Hallo-Live 的实时文本驱动音视频数字人生成方法。研究团队将视频和语音的生成问题转化为流式双流扩散模型,并通过异步双流 DiT 与人类偏好蒸馏实现端到端的实时交互。为解决实时性与质量的矛盾,提出未来扩展注意力,使视频流在当前块的基础上可访问少量未来音频信息,从而提升嘴型同步与发音协同。另一个创新是将“偏好”直接蒸馏进学生模型:通过 VideoAlign、SyncNet、AudioBox 三类奖励,对蒸馏目标进行加权,形成奖励导向的蒸馏,与传统模仿教师分布不同。实验在两张 NVIDIA H200 上实现约 20.38 FPS、0.94 秒端到端延迟,质量接近离线重型模型,但具备显著速度优势。 Hallo-Live 的核心在于在保持流式因果生成的前提下,完成视频和音频的联合生成,并为数字人直播、虚拟主持等场景提供可部署的阶段性解决方案。未来仍需在低成本硬件上的优化与进一步提升同步性与语音自然度。



🏷️ #实时音视频 #数字人 #唇形同步 #蒸馏学习 #未来扩展注意力

🔗 原文链接
 
 
Back to Top