📰 推理速度25fps,首帧延迟3.5s!商汤SekoTalk:让实时语音数字人更近一步-品玩

在数字人技术迅速发展的背景下,商汤科技推出了实时语音驱动数字人技术SekoTalk,显著提升了数字人视频的生成效率。SekoTalk在8卡服务器上可以达到25 fps的生成速度,首帧延迟低至3.5秒,支持多人、多语言的口型精准匹配。这一技术有效突破了数字人发展的性能瓶颈,为其大规模应用提供了更多可能性。

SekoTalk以算法协同设计实现了生成效率的跨越式提升,采用了Phased DMD技术以保持良好的肢体运动效果和情绪表现力。LightX2V推理框架则支持低资源部署,不同硬件环境下均能实现高效推理。此外,在处理多语言和多人交互时,SekoTalk能够实现声形的高度同步,确保口型与语音的准确匹配。

针对生成长视频时的画面漂移与人物不一致问题,SekoTalk提出了混合参考图注入策略,兼顾动作多样性与画面稳定性。其在线体验平台为用户提供了免费的技术体验,使得SekoTalk在情感陪伴、在线教育等领域展现了实时交互的巨大潜力。

🏷️ #数字人 #生成效率 #实时技术 #多模态交互 #商汤科技

🔗 原文链接
 
 
Back to Top