搜索引擎 + AI 驱动的行业新闻
【覆盖行业】
信保 |出口 |金融
制造 |农业 |建筑 |地产
零售 |物流 |数智
【访问入口】
hangyexinwen.com
【新闻分享】
点击发布时间即可分享
【联系我们】
xinbaoren.com
(微信内打开提交表单)
【覆盖行业】
信保 |出口 |金融
制造 |农业 |建筑 |地产
零售 |物流 |数智
【访问入口】
hangyexinwen.com
【新闻分享】
点击发布时间即可分享
【联系我们】
xinbaoren.com
(微信内打开提交表单)
📰 全行业都在测语音AI
本文围绕百融云创开源的 CoDeTT 基准展开,揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区。通过对比传统端点检测、进阶 Benchmark 的局限,作者提出 CoDeTT 的三层诊断体系:边界检测、上下文推理、多方语用消歧,并引入语义错位率 SMR 这一新指标,用以衡量动作正确但理由错误的情况比例。实验显示,尽管模型在动作层面表现尚可,但在解释理由和应对复杂场景(如背景噪音、旁人对话、用户打断等)方面普遍欠缺。数据集包含300小时中英双语对话、18,000个标注决策、14种诊断场景,并通过六阶段流水线构建,确保标注一致性。研究结果指出:当前 TURN-Taking 能力被严重高估,最优模型的 SMR 仍在 15%~25% 区间,且上下文引入过多反而降低性能,特别是在打断等场景。CoDeTT 将评测从“做了什么”升级到“为何这么做”,为行业提供诊断工具,帮助产品和研究团队定位问题来源,推动从追求单纯准确率向理解模型决策的方向转变。未来行业需要以真实性能为目标,反思“反应快”是否真的代表了对话质量。
🏷️ #CoDeTT #SMR #TurnTaking #语音AI #评测创新
🔗 原文链接
📰 全行业都在测语音AI
本文围绕百融云创开源的 CoDeTT 基准展开,揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区。通过对比传统端点检测、进阶 Benchmark 的局限,作者提出 CoDeTT 的三层诊断体系:边界检测、上下文推理、多方语用消歧,并引入语义错位率 SMR 这一新指标,用以衡量动作正确但理由错误的情况比例。实验显示,尽管模型在动作层面表现尚可,但在解释理由和应对复杂场景(如背景噪音、旁人对话、用户打断等)方面普遍欠缺。数据集包含300小时中英双语对话、18,000个标注决策、14种诊断场景,并通过六阶段流水线构建,确保标注一致性。研究结果指出:当前 TURN-Taking 能力被严重高估,最优模型的 SMR 仍在 15%~25% 区间,且上下文引入过多反而降低性能,特别是在打断等场景。CoDeTT 将评测从“做了什么”升级到“为何这么做”,为行业提供诊断工具,帮助产品和研究团队定位问题来源,推动从追求单纯准确率向理解模型决策的方向转变。未来行业需要以真实性能为目标,反思“反应快”是否真的代表了对话质量。
🏷️ #CoDeTT #SMR #TurnTaking #语音AI #评测创新
🔗 原文链接