搜索引擎 + AI 驱动的行业新闻
【覆盖行业】
信保 |出口 |金融
制造 |农业 |建筑 |地产
零售 |物流 |数智
【访问入口】
hangyexinwen.com
【新闻分享】
点击发布时间即可分享
【联系我们】
xinbaoren.com
(微信内打开提交表单)
【覆盖行业】
信保 |出口 |金融
制造 |农业 |建筑 |地产
零售 |物流 |数智
【访问入口】
hangyexinwen.com
【新闻分享】
点击发布时间即可分享
【联系我们】
xinbaoren.com
(微信内打开提交表单)
📰 京东发布“自由态数字人”JoyStreamer
京东数字人团队推出的自由态数字人JoyStreamer在核心技术上取得显著进展,具备自然走动、动态摆姿等高度拟人化动作,能够覆盖电商直播、文旅讲解等20多个行业场景,应用潜力巨大。该系统采用“音频、文本”双教师DMD后训练方法,无需额外训练数据即可实现精准控制;同时通过动态CFG调制策略解决文本与音频多模态控制冲突,避免声画不同步的问题。在长视频方面,京东自研的“历史帧+伪最后一帧”结构有助于稳定生成30秒以上的高质量长视频。面对文本控制能力弱、音视频不同步、长视频生成能力欠缺等行业痛点,JoyStreamer为数字人产品提供了系统性解决思路,推动数字人从概念走向大规模应用。此外,京东还上线了“数字人直播间复刻”功能,商家仅需上传真人直播素材,即可精准复刻主播形象、声线和直播间布景,大幅降低内容制作门槛,促进直播运营转化为长期资产。
🏷️ #数字人 #JoyStreamer #AI直播 #多模态 #长视频
🔗 原文链接
📰 京东发布“自由态数字人”JoyStreamer
京东数字人团队推出的自由态数字人JoyStreamer在核心技术上取得显著进展,具备自然走动、动态摆姿等高度拟人化动作,能够覆盖电商直播、文旅讲解等20多个行业场景,应用潜力巨大。该系统采用“音频、文本”双教师DMD后训练方法,无需额外训练数据即可实现精准控制;同时通过动态CFG调制策略解决文本与音频多模态控制冲突,避免声画不同步的问题。在长视频方面,京东自研的“历史帧+伪最后一帧”结构有助于稳定生成30秒以上的高质量长视频。面对文本控制能力弱、音视频不同步、长视频生成能力欠缺等行业痛点,JoyStreamer为数字人产品提供了系统性解决思路,推动数字人从概念走向大规模应用。此外,京东还上线了“数字人直播间复刻”功能,商家仅需上传真人直播素材,即可精准复刻主播形象、声线和直播间布景,大幅降低内容制作门槛,促进直播运营转化为长期资产。
🏷️ #数字人 #JoyStreamer #AI直播 #多模态 #长视频
🔗 原文链接
📰 京东发布行业首款“自由态数字人” 五大场景引领交互新体验
随着AIGC浪潮推动数字人从概念走向规模化应用,行业痛点包括文本控制弱、音视频不同步、长视频生成能力不足,导致产品同质化与场景受限。京东数字人JoyStreamer完成关键技术升级,核心指标达商用级,覆盖20余行业场景,打通文本、音频、动作的高效协同。其三大技术包括:双教师DMD后训练提升文本理解与响应精准性,无需新数据即可实现复杂指令的可控性;动态CFG调制策略解决音画冲突,使口型、表情、肢体与语音高度一致,增强自然度;历史帧+伪最后一帧结构实现长视频稳定生成,支持30秒以上高质量内容,避免画面抖动与动作重复。基于此,京东推出“自由态数字人”,实现自然走动、镜头跟随、出画入画等动态交互,提升品牌营销、直播带货、虚拟导购等场景的沉浸感与真实感。产业层面,直播服务对商家免费开放,覆盖电商、教育、培训、客服等领域,累计服务超7万商家并提供公域流量扶持,推出数字人直播间复刻功能,使真实主播形象与声线可快速复现,支持大姿态与面部遮挡等高保真效果,推动数字人从工具向创作伙伴的升级,促进产业生态的高质量发展。
🏷️ #数字人 #动态CFG #双教师DMD #长视频稳定 #自由态数字人
🔗 原文链接
📰 京东发布行业首款“自由态数字人” 五大场景引领交互新体验
随着AIGC浪潮推动数字人从概念走向规模化应用,行业痛点包括文本控制弱、音视频不同步、长视频生成能力不足,导致产品同质化与场景受限。京东数字人JoyStreamer完成关键技术升级,核心指标达商用级,覆盖20余行业场景,打通文本、音频、动作的高效协同。其三大技术包括:双教师DMD后训练提升文本理解与响应精准性,无需新数据即可实现复杂指令的可控性;动态CFG调制策略解决音画冲突,使口型、表情、肢体与语音高度一致,增强自然度;历史帧+伪最后一帧结构实现长视频稳定生成,支持30秒以上高质量内容,避免画面抖动与动作重复。基于此,京东推出“自由态数字人”,实现自然走动、镜头跟随、出画入画等动态交互,提升品牌营销、直播带货、虚拟导购等场景的沉浸感与真实感。产业层面,直播服务对商家免费开放,覆盖电商、教育、培训、客服等领域,累计服务超7万商家并提供公域流量扶持,推出数字人直播间复刻功能,使真实主播形象与声线可快速复现,支持大姿态与面部遮挡等高保真效果,推动数字人从工具向创作伙伴的升级,促进产业生态的高质量发展。
🏷️ #数字人 #动态CFG #双教师DMD #长视频稳定 #自由态数字人
🔗 原文链接
📰 重磅开源!通义万相最新模型来了
通义万相全新发布的音频驱动视频模型Wan2.2-S2V,用户只需一张图片和一段音频,即可生成高质量的数字人视频,极大提升视频创作效率。该模型支持生成分钟级长视频,适用于数字人直播、影视制作及AI教育等多个行业。
Wan2.2-S2V具备复杂场景驱动能力,能够驱动真人、卡通、动物等多种类型的图片,支持肖像、半身和全身画幅。通过文本引导和音频驱动的结合,模型实现了更细致的动作控制,提升了生成视频的互动性和表现力。
该模型采用层次化帧压缩技术,显著降低历史帧的Token数量,从而保障长视频的稳定生成。同时,支持多种分辨率的训练与推理,满足不同场景需求。通义团队通过构建大规模音视频数据集,优化了模型性能,助力多行业落地应用。
🏷️ #音频驱动 #视频生成 #数字人 #长视频 #多分辨率
🔗 原文链接
📰 重磅开源!通义万相最新模型来了
通义万相全新发布的音频驱动视频模型Wan2.2-S2V,用户只需一张图片和一段音频,即可生成高质量的数字人视频,极大提升视频创作效率。该模型支持生成分钟级长视频,适用于数字人直播、影视制作及AI教育等多个行业。
Wan2.2-S2V具备复杂场景驱动能力,能够驱动真人、卡通、动物等多种类型的图片,支持肖像、半身和全身画幅。通过文本引导和音频驱动的结合,模型实现了更细致的动作控制,提升了生成视频的互动性和表现力。
该模型采用层次化帧压缩技术,显著降低历史帧的Token数量,从而保障长视频的稳定生成。同时,支持多种分辨率的训练与推理,满足不同场景需求。通义团队通过构建大规模音视频数据集,优化了模型性能,助力多行业落地应用。
🏷️ #音频驱动 #视频生成 #数字人 #长视频 #多分辨率
🔗 原文链接