📰 全双工AI会对数字人行业带来什么改变?

阿里 WanStreamer 通过将传统六模块级联流水线整合为一个统一的 Transformer,实现了“边听、边看、边想、边说”的全双工端到端交互,显著降低数字人交互延迟至约550ms,总体实现对数字人新物种的定义。核心创新包括200ms的模型侧延迟、 thinker-performer 双卡流水线、音视频在潜在空间的多模态联合生成、以及原生流式架构,使数字人能够在用户说话时点头、皱眉、随时打断并持续感知对话中的细微情感与表情变化,解决了传统系统的音画错位和叠加延迟问题。这一技术带来三重颠覆:提升交互真实感和流式交流体验,拓展商业变现路径(如医疗、教育、企业数字员工、以及可实时感知评论区并调整话术的电商直播),以及推动行业从拼模块向端到端模型训练的转型,提升算力与开源生态的重要性。未来需在分辨率、情感深度和人格化方面继续提升,并在金融、医疗、教育等强交互场景广泛落地,形成以全双工模型能力为核心的产业闭环。阿里以千问大模型、WanStreamer 与平头哥芯片构建全栈生态,已在先机阶段取得行业领先。本文信息来自 AI 生成内容。

🏷️ #全双工 #端到端 #数字人 #多模态 #商业变现

🔗 原文链接
 
 
Back to Top