⁣📰 研究揭示 AI 智能体开发失衡：过度聚焦编程，忽视多数劳动力市场本研究基于对 72342 项任务的 43 个智能体基准测试与美国劳动力市场的对比，揭示了当前 AI 智能体开发的显著失衡：大多数研究聚焦计算机与数学领域的编程任务，而这类领域仅占美国总就业的 7.6%，其他如管理、法律、建筑、护理等数字化率虽高但在基准测试中的覆盖却极低

⁣
📰 研究揭示 AI 智能体开发失衡：过度聚焦编程，忽视多数劳动力市场

本研究基于对 72342 项任务的 43 个智能体基准测试与美国劳动力市场的对比，揭示了当前 AI 智能体开发的显著失衡：大多数研究聚焦计算机与数学领域的编程任务，而这类领域仅占美国总就业的 7.6%，其他如管理、法律、建筑、护理等数字化率虽高但在基准测试中的覆盖却极低。这意味着大量现实工作领域在现有基准中几乎未被考察，且这些领域往往具备较高经济价值与复杂挑战，例如目标模糊、需长期验证等。研究提出将基准设计向覆盖不足但高度数字化的领域扩展、提升基准的现实性和复杂度、以及对智能体自主性进行更细致的评估，以便准确衡量其在真实工作中的应用潜力。研究还指出，现阶段基准多偏向信息获取与计算机操作，忽视了人际互动等关键技能的考量，且对不同任务复杂度的提升导致成功率下降。为改善现状，研究建议公开运行轨迹、采用跨领域多技能的评估框架，并借助中间检查点来定位失效环节，未来以 GDPval 等综合性基准为参考，推动更全面的行业覆盖与更可靠的自主执行水平评估。

🏷️ #AI #基准测试 #数字化 #行业覆盖 #自主性

🔗 原文链接