📰 SentiPulse携手人大高瓴:开源交互式3D数字人框架SentiAvatar,领跑行业主流模型
3D数字人行业普遍陷入颜值内卷,外观再精致也难以解决长期深度交互的核心问题。真正阻碍产业天花板的,是缺乏与人类自然表达和顺畅动作的高质量对话能力;数字人常出现动作与语义脱节、表情与语音情绪错位等现象,导致情感联结与深度互动难以建立。针对三大瓶颈:中文高质量对话数据匮乏、复合语义下动作漂移导致语义理解退化、音画节奏错位造成的机械感。SentiAvatar 项目由 SentiPulse 与人大等机构联合推出,提供面向全球的开源3D动作生成完整解决方案,旨在打破预设脚本与“提线木偶”式交互。核心在于数据底座与新范式:SuSuInterActs 数据集聚焦单一角色构建,包含2.1万段片段、37小时多模态对话语料,覆盖同步语音、行为标注文本、全身动作与面部表情;引入 Motion Foundation Model 作为通用运动先验,覆盖676小时异质动作序列。创新的 plan-then-infill 双通道架构,将动作生成分为先规划动作再逐帧执行,辅以 Body Infill Transformer 在相邻关键帧间填充中间帧,采用 HuBERT 特征实现高质量逐帧生成。自研数据与模型在 SuSuInterActs 与 BEATv2 数据集上均达到或接近SOTA,且实现0.3秒内生成6秒动作、支持无限轮次的流式交互,显著提升实时性与连贯性。该框架已在GitHub开放,推动跨领域应用与研究复用,数字人因此具备读懂情绪与语境、主动表达的能力,向“数字生命”迈进。
🏷️ #数字人 #动作生成 #开放源代码 #交互感知 #跨领域应用
🔗 原文链接
📰 SentiPulse携手人大高瓴:开源交互式3D数字人框架SentiAvatar,领跑行业主流模型
3D数字人行业普遍陷入颜值内卷,外观再精致也难以解决长期深度交互的核心问题。真正阻碍产业天花板的,是缺乏与人类自然表达和顺畅动作的高质量对话能力;数字人常出现动作与语义脱节、表情与语音情绪错位等现象,导致情感联结与深度互动难以建立。针对三大瓶颈:中文高质量对话数据匮乏、复合语义下动作漂移导致语义理解退化、音画节奏错位造成的机械感。SentiAvatar 项目由 SentiPulse 与人大等机构联合推出,提供面向全球的开源3D动作生成完整解决方案,旨在打破预设脚本与“提线木偶”式交互。核心在于数据底座与新范式:SuSuInterActs 数据集聚焦单一角色构建,包含2.1万段片段、37小时多模态对话语料,覆盖同步语音、行为标注文本、全身动作与面部表情;引入 Motion Foundation Model 作为通用运动先验,覆盖676小时异质动作序列。创新的 plan-then-infill 双通道架构,将动作生成分为先规划动作再逐帧执行,辅以 Body Infill Transformer 在相邻关键帧间填充中间帧,采用 HuBERT 特征实现高质量逐帧生成。自研数据与模型在 SuSuInterActs 与 BEATv2 数据集上均达到或接近SOTA,且实现0.3秒内生成6秒动作、支持无限轮次的流式交互,显著提升实时性与连贯性。该框架已在GitHub开放,推动跨领域应用与研究复用,数字人因此具备读懂情绪与语境、主动表达的能力,向“数字生命”迈进。
🏷️ #数字人 #动作生成 #开放源代码 #交互感知 #跨领域应用
🔗 原文链接