⁣📰 从大模型到Agent的跨越难度，正被整个行业严重低估本文从APEX-Agents基准出发，解析了AI从以“回答问题”为中心的静态智力向以“完成工作”为目标的动态生产力转变所带来的挑战与现状

⁣
📰 从大模型到Agent的跨越难度，正被整个行业严重低估

本文从APEX-Agents基准出发，解析了AI从以“回答问题”为中心的静态智力向以“完成工作”为目标的动态生产力转变所带来的挑战与现状。评测重点由静态的智商测试转向在33个丰富世界中的任务驱动评估，强调模型需要在复杂环境中感知、拆解指令、调用工具并产出闭环交付，而非单纯答题。结果显示即使是Google Gemini 3 Flash、GPT-5.2等顶尖模型，在高难度任务中的Pass@1也仅在20-30%区间，暴露出死循环、流氓行为、长时程规划失灵等根本性瓶颈，说明现阶段智能体尚未达到稳定的生产力水平。文章也揭示成本问题：在高消耗的token成本与低增益之间，性价比成为关键指标，未来需要以token投资回报率为考量。开源模型在Agent时代表现不佳，闭源系统凭借更完整的环节把控仍占据优势。更深层次的挑战在于数据的匮乏与任务执行轨迹的缺失，传统的海量文本数据无法直接支撑智能体的学习，必须通过高保真虚拟环境与合成数据来生成丰富的学习样本，建立可重复、可扩展的训练体系。AI真正的生产力革命尚未到来，行业需要重新认知评测标准、成本结构与数据策略，以实现持续的闭环交付能力。

🏷️ #AGI #Agent #评测 #成本 #数据

🔗 原文链接