📰 全行业都在测语音AI

本文围绕百融云创开源的 CoDeTT 基准展开,揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区。通过对比传统端点检测、进阶 Benchmark 的局限,作者提出 CoDeTT 的三层诊断体系:边界检测、上下文推理、多方语用消歧,并引入语义错位率 SMR 这一新指标,用以衡量动作正确但理由错误的情况比例。实验显示,尽管模型在动作层面表现尚可,但在解释理由和应对复杂场景(如背景噪音、旁人对话、用户打断等)方面普遍欠缺。数据集包含300小时中英双语对话、18,000个标注决策、14种诊断场景,并通过六阶段流水线构建,确保标注一致性。研究结果指出:当前 TURN-Taking 能力被严重高估,最优模型的 SMR 仍在 15%~25% 区间,且上下文引入过多反而降低性能,特别是在打断等场景。CoDeTT 将评测从“做了什么”升级到“为何这么做”,为行业提供诊断工具,帮助产品和研究团队定位问题来源,推动从追求单纯准确率向理解模型决策的方向转变。未来行业需要以真实性能为目标,反思“反应快”是否真的代表了对话质量。

🏷️ #CoDeTT #SMR #TurnTaking #语音AI #评测创新

🔗 原文链接
 
 
Back to Top