#长视频稳定

搜索引擎 + AI 驱动的行业新闻

【覆盖行业】
信保｜出口｜金融
制造｜农业｜建筑｜地产
零售｜物流｜数智

【访问入口】
hangyexinwen.com

【新闻分享】
点击发布时间即可分享

【联系我们】
xinbaoren.com
（微信内打开提交表单）

00:49 · 2026年3月27日 · 周五

⁣
📰 京东发布“自由态数字人”JoyStreamer

京东数字人团队推出的自由态数字人JoyStreamer在核心技术上取得显著进展，具备自然走动、动态摆姿等高度拟人化动作，能够覆盖电商直播、文旅讲解等20多个行业场景，应用潜力巨大。该系统采用“音频、文本”双教师DMD后训练方法，无需额外训练数据即可实现精准控制；同时通过动态CFG调制策略解决文本与音频多模态控制冲突，避免声画不同步的问题。在长视频方面，京东自研的“历史帧+伪最后一帧”结构有助于稳定生成30秒以上的高质量长视频。面对文本控制能力弱、音视频不同步、长视频生成能力欠缺等行业痛点，JoyStreamer为数字人产品提供了系统性解决思路，推动数字人从概念走向大规模应用。此外，京东还上线了“数字人直播间复刻”功能，商家仅需上传真人直播素材，即可精准复刻主播形象、声线和直播间布景，大幅降低内容制作门槛，促进直播运营转化为长期资产。

🏷️ #数字人 #JoyStreamer #AI直播 #多模态 #长视频

🔗 原文链接

数字人 JoyStreamer AI直播多模态长视频

04:49 · 2026年3月26日 · 周四

⁣
📰 京东发布行业首款“自由态数字人” 五大场景引领交互新体验

随着AIGC浪潮推动数字人从概念走向规模化应用，行业痛点包括文本控制弱、音视频不同步、长视频生成能力不足，导致产品同质化与场景受限。京东数字人JoyStreamer完成关键技术升级，核心指标达商用级，覆盖20余行业场景，打通文本、音频、动作的高效协同。其三大技术包括：双教师DMD后训练提升文本理解与响应精准性，无需新数据即可实现复杂指令的可控性；动态CFG调制策略解决音画冲突，使口型、表情、肢体与语音高度一致，增强自然度；历史帧+伪最后一帧结构实现长视频稳定生成，支持30秒以上高质量内容，避免画面抖动与动作重复。基于此，京东推出“自由态数字人”，实现自然走动、镜头跟随、出画入画等动态交互，提升品牌营销、直播带货、虚拟导购等场景的沉浸感与真实感。产业层面，直播服务对商家免费开放，覆盖电商、教育、培训、客服等领域，累计服务超7万商家并提供公域流量扶持，推出数字人直播间复刻功能，使真实主播形象与声线可快速复现，支持大姿态与面部遮挡等高保真效果，推动数字人从工具向创作伙伴的升级，促进产业生态的高质量发展。

🏷️ #数字人 #动态CFG #双教师DMD #长视频稳定 #自由态数字人

🔗 原文链接

数字人动态CFG 双教师DMD 长视频稳定自由态数字人

01:44 · 2025年8月27日 · 周三

⁣
📰 重磅开源！通义万相最新模型来了

通义万相全新发布的音频驱动视频模型Wan2.2-S2V，用户只需一张图片和一段音频，即可生成高质量的数字人视频，极大提升视频创作效率。该模型支持生成分钟级长视频，适用于数字人直播、影视制作及AI教育等多个行业。

Wan2.2-S2V具备复杂场景驱动能力，能够驱动真人、卡通、动物等多种类型的图片，支持肖像、半身和全身画幅。通过文本引导和音频驱动的结合，模型实现了更细致的动作控制，提升了生成视频的互动性和表现力。

该模型采用层次化帧压缩技术，显著降低历史帧的Token数量，从而保障长视频的稳定生成。同时，支持多种分辨率的训练与推理，满足不同场景需求。通义团队通过构建大规模音视频数据集，优化了模型性能，助力多行业落地应用。

🏷️ #音频驱动 #视频生成 #数字人 #长视频 #多分辨率

🔗 原文链接

音频驱动视频生成数字人长视频多分辨率