<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>TurnTaking | 行业新闻_数智（点击查看更多）</title><description>搜索引擎 + AI 驱动的行业新闻【覆盖行业】信保 ｜出口 ｜金融 制造 ｜农业 ｜建筑 ｜地产  零售 ｜物流 ｜数智【访问入口】hangyexinwen.com【新闻分享】点击发布时间即可分享【联系我们】xinbaoren.com（微信内打开提交表单）</description><link>https://shuzhi.hangyexinwen.com</link><item><title>⁣📰 全行业都在测语音AI本文围绕百融云创开源的 CoDeTT 基准展开，揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区</title><link>https://shuzhi.hangyexinwen.com/posts/15053</link><guid isPermaLink="true">https://shuzhi.hangyexinwen.com/posts/15053</guid><pubDate>Thu, 02 Apr 2026 13:39:21 GMT</pubDate><content:encoded>⁣&lt;br /&gt;&lt;b&gt;&lt;i&gt;&lt;b&gt;📰&lt;/b&gt;&lt;/i&gt; 全行业都在测语音AI&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;本文围绕百融云创开源的 CoDeTT 基准展开，揭示当前主流全模态大模型在语音交互中的“蒙对”现象及根本性盲区。通过对比传统端点检测、进阶 Benchmark 的局限，作者提出 CoDeTT 的三层诊断体系：边界检测、上下文推理、多方语用消歧，并引入语义错位率 SMR 这一新指标，用以衡量动作正确但理由错误的情况比例。实验显示，尽管模型在动作层面表现尚可，但在解释理由和应对复杂场景（如背景噪音、旁人对话、用户打断等）方面普遍欠缺。数据集包含300小时中英双语对话、18,000个标注决策、14种诊断场景，并通过六阶段流水线构建，确保标注一致性。研究结果指出：当前 TURN-Taking 能力被严重高估，最优模型的 SMR 仍在 15%~25% 区间，且上下文引入过多反而降低性能，特别是在打断等场景。CoDeTT 将评测从“做了什么”升级到“为何这么做”，为行业提供诊断工具，帮助产品和研究团队定位问题来源，推动从追求单纯准确率向理解模型决策的方向转变。未来行业需要以真实性能为目标，反思“反应快”是否真的代表了对话质量。&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🏷️&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;/search/%23CoDeTT&quot;&gt;#CoDeTT&lt;/a&gt; &lt;a href=&quot;/search/%23SMR&quot;&gt;#SMR&lt;/a&gt; &lt;a href=&quot;/search/%23TurnTaking&quot;&gt;#TurnTaking&lt;/a&gt; &lt;a href=&quot;/search/%23%E8%AF%AD%E9%9F%B3AI&quot;&gt;#语音AI&lt;/a&gt; &lt;a href=&quot;/search/%23%E8%AF%84%E6%B5%8B%E5%88%9B%E6%96%B0&quot;&gt;#评测创新&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;🔗&lt;/b&gt;&lt;/i&gt; &lt;a href=&quot;https://www.pingwest.com/a/312681&quot; target=&quot;_blank&quot;&gt;原文链接&lt;/a&gt;</content:encoded></item></channel></rss>