⁣📰 全行业都在测语音AI本文围绕百融云创开源的 CoDeTT 基准展开，揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区

⁣
📰 全行业都在测语音AI

本文围绕百融云创开源的 CoDeTT 基准展开，揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区。通过对比传统端点检测、进阶 Benchmark 的局限，作者提出 CoDeTT 的三层诊断体系：边界检测、上下文推理、多方语用消歧，并引入语义错位率 SMR 这一新指标，用以衡量动作正确但理由错误的情况比例。实验显示，尽管模型在动作层面表现尚可，但在解释理由和应对复杂场景（如背景噪音、旁人对话、用户打断等）方面普遍欠缺。数据集包含300小时中英双语对话、18,000个标注决策、14种诊断场景，并通过六阶段流水线构建，确保标注一致性。研究结果指出：当前 TURN-Taking 能力被严重高估，最优模型的 SMR 仍在 15%~25% 区间，且上下文引入过多反而降低性能，特别是在打断等场景。CoDeTT 将评测从“做了什么”升级到“为何这么做”，为行业提供诊断工具，帮助产品和研究团队定位问题来源，推动从追求单纯准确率向理解模型决策的方向转变。未来行业需要以真实性能为目标，反思“反应快”是否真的代表了对话质量。

🏷️ #CoDeTT #SMR #TurnTaking #语音AI #评测创新

🔗 原文链接