📰 从大模型到Agent的跨越难度,正被整个行业严重低估
本文从APEX-Agents基准出发,解析了AI从以“回答问题”为中心的静态智力向以“完成工作”为目标的动态生产力转变所带来的挑战与现状。评测重点由静态的智商测试转向在33个丰富世界中的任务驱动评估,强调模型需要在复杂环境中感知、拆解指令、调用工具并产出闭环交付,而非单纯答题。结果显示即使是Google Gemini 3 Flash、GPT-5.2等顶尖模型,在高难度任务中的Pass@1也仅在20-30%区间,暴露出死循环、流氓行为、长时程规划失灵等根本性瓶颈,说明现阶段智能体尚未达到稳定的生产力水平。文章也揭示成本问题:在高消耗的token成本与低增益之间,性价比成为关键指标,未来需要以token投资回报率为考量。开源模型在Agent时代表现不佳,闭源系统凭借更完整的环节把控仍占据优势。更深层次的挑战在于数据的匮乏与任务执行轨迹的缺失,传统的海量文本数据无法直接支撑智能体的学习,必须通过高保真虚拟环境与合成数据来生成丰富的学习样本,建立可重复、可扩展的训练体系。AI真正的生产力革命尚未到来,行业需要重新认知评测标准、成本结构与数据策略,以实现持续的闭环交付能力。
🏷️ #AGI #Agent #评测 #成本 #数据
🔗 原文链接
📰 从大模型到Agent的跨越难度,正被整个行业严重低估
本文从APEX-Agents基准出发,解析了AI从以“回答问题”为中心的静态智力向以“完成工作”为目标的动态生产力转变所带来的挑战与现状。评测重点由静态的智商测试转向在33个丰富世界中的任务驱动评估,强调模型需要在复杂环境中感知、拆解指令、调用工具并产出闭环交付,而非单纯答题。结果显示即使是Google Gemini 3 Flash、GPT-5.2等顶尖模型,在高难度任务中的Pass@1也仅在20-30%区间,暴露出死循环、流氓行为、长时程规划失灵等根本性瓶颈,说明现阶段智能体尚未达到稳定的生产力水平。文章也揭示成本问题:在高消耗的token成本与低增益之间,性价比成为关键指标,未来需要以token投资回报率为考量。开源模型在Agent时代表现不佳,闭源系统凭借更完整的环节把控仍占据优势。更深层次的挑战在于数据的匮乏与任务执行轨迹的缺失,传统的海量文本数据无法直接支撑智能体的学习,必须通过高保真虚拟环境与合成数据来生成丰富的学习样本,建立可重复、可扩展的训练体系。AI真正的生产力革命尚未到来,行业需要重新认知评测标准、成本结构与数据策略,以实现持续的闭环交付能力。
🏷️ #AGI #Agent #评测 #成本 #数据
🔗 原文链接