⁣📰 从大模型到Agent的跨越难度，正被整个行业严重低估-36氪过去两年，AI 的评测聚焦静态智商，然而 APEX-Agents 基准揭示了从“回答问题”到“完成工作”的转变所带来的数据饥渴与生产力挑战

Fri, 10 Apr 2026 09:39:41 GMT

⁣
📰 从大模型到Agent的跨越难度，正被整个行业严重低估-36氪

过去两年，AI 的评测聚焦静态智商，然而 APEX-Agents 基准揭示了从“回答问题”到“完成工作”的转变所带来的数据饥渴与生产力挑战。评测从一问一答的模式转向九大应用场景的33个世界，要求模型在长时间任务链中感知环境、拆解指令、调用工具并产出闭环成果，凸显了智能体在状态管理、错误恢复和长程规划等方面的不足。结果显示，即使顶尖模型在高难度职业场景下的通过率也仅在30%上下，且高吞吐的成本与低增益的边际递减使商业落地受限，open-source 在此时几乎全线失败，闭源模型则掌握更强的执行轨迹与数据壁垒。最后，文章强调数据质量仍是瓶颈，单靠海量文本无法支撑智能体的任务执行能力，需通过高保真虚拟环境与合成数据来提升训练效果，真正的通用生产力需要在任务编排、轨迹优化和环境交互上实现更高的稳定性和性价比。

🏷️ #AI评测 #智能体 #生产力 #数据壁垒 #仿真环境

🔗 原文链接

仿真环境 | 行业新闻_数智（点击查看更多）

⁣📰 从大模型到Agent的跨越难度，正被整个行业严重低估-36氪过去两年，AI 的评测聚焦静态智商，然而 APEX-Agents 基准揭示了从“回答问题”到“完成工作”的转变所带来的数据饥渴与生产力挑战