<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>蒸馏学习 | 行业新闻_数智（点击查看更多）</title><description>搜索引擎 + AI 驱动的行业新闻【覆盖行业】信保 ｜出口 ｜金融 制造 ｜农业 ｜建筑 ｜地产  零售 ｜物流 ｜数智【访问入口】hangyexinwen.com【新闻分享】点击发布时间即可分享【联系我们】xinbaoren.com（微信内打开提交表单）</description><link>https://shuzhi.hangyexinwen.com</link><item><title>⁣📰 复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍本文介绍 Hallo-Live 的实时文本驱动音视频数字人生成方法</title><link>https://shuzhi.hangyexinwen.com/posts/18359</link><guid isPermaLink="true">https://shuzhi.hangyexinwen.com/posts/18359</guid><pubDate>Sun, 24 May 2026 15:45:04 GMT</pubDate><content:encoded>⁣&lt;br /&gt;&lt;b&gt;&lt;i&gt;&lt;b&gt;📰&lt;/b&gt;&lt;/i&gt; 复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;本文介绍 Hallo-Live 的实时文本驱动音视频数字人生成方法。研究团队将视频和语音的生成问题转化为流式双流扩散模型，并通过异步双流 DiT 与人类偏好蒸馏实现端到端的实时交互。为解决实时性与质量的矛盾，提出未来扩展注意力，使视频流在当前块的基础上可访问少量未来音频信息，从而提升嘴型同步与发音协同。另一个创新是将“偏好”直接蒸馏进学生模型：通过 VideoAlign、SyncNet、AudioBox 三类奖励，对蒸馏目标进行加权，形成奖励导向的蒸馏，与传统模仿教师分布不同。实验在两张 NVIDIA H200 上实现约 20.38 FPS、0.94 秒端到端延迟，质量接近离线重型模型，但具备显著速度优势。 Hallo-Live 的核心在于在保持流式因果生成的前提下，完成视频和音频的联合生成，并为数字人直播、虚拟主持等场景提供可部署的阶段性解决方案。未来仍需在低成本硬件上的优化与进一步提升同步性与语音自然度。&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🏷️&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;/search/%23%E5%AE%9E%E6%97%B6%E9%9F%B3%E8%A7%86%E9%A2%91&quot;&gt;#实时音视频&lt;/a&gt; &lt;a href=&quot;/search/%23%E6%95%B0%E5%AD%97%E4%BA%BA&quot;&gt;#数字人&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%94%87%E5%BD%A2%E5%90%8C%E6%AD%A5&quot;&gt;#唇形同步&lt;/a&gt; &lt;a href=&quot;/search/%23%E8%92%B8%E9%A6%8F%E5%AD%A6%E4%B9%A0&quot;&gt;#蒸馏学习&lt;/a&gt; &lt;a href=&quot;/search/%23%E6%9C%AA%E6%9D%A5%E6%89%A9%E5%B1%95%E6%B3%A8%E6%84%8F%E5%8A%9B&quot;&gt;#未来扩展注意力&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🔗&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;https://www.itsolotime.com/archives/36258&quot; target=&quot;_blank&quot;&gt;原文链接&lt;/a&gt;</content:encoded></item></channel></rss>