⁣📰 24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙本文介绍了虎牙最新推出的虎牙VAM 1.0（Vivid Avatar Model），通过DiT架构实现的实时多模态数字人基础模型

⁣
📰 24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

本文介绍了虎牙最新推出的虎牙VAM 1.0（Vivid Avatar Model），通过DiT架构实现的实时多模态数字人基础模型。仅需上传一张照片就能生成一个能说话、听你说话、会唱跳的全能AI数字人，且在线上直播时能实时互动。实测显示其在聊天、唱歌、跳舞、换装、玩塔罗和狼人杀等场景中表现稳定、自然，具备“静默-聆听-说话”三种状态的全状态拟人交互，并支持实时打断和弹幕语音双链路。文章还详细解析了这项技术面临的三堵墙：时间、交互、部署，并阐述虎牙如何通过三阶段训练、DPO偏好优化、模型蒸馏等方法实现持续24小时在线、低延迟的性能。最终结论是虎牙VAM 1.0以稳、准、快为核心能力，且将AI数字人从“内容生产工具”向“实时交互主体”转变，具备广阔的直播、新闻播报、虚拟演唱会等场景落地潜力。未来，AI数字人将成为直播系统的核心组成部分，而虎牙在场景、技术与工程化上的布局显著领先。

🏷️ #AI数字人 #虎牙VAM #实时互动 #直播场景 #三堵墙

🔗 原文链接