📰 研究揭示 AI 智能体开发失衡:过度聚焦编程,忽视多数劳动力市场

本研究基于对 72342 项任务的 43 个智能体基准测试与美国劳动力市场的对比,揭示了当前 AI 智能体开发的显著失衡:大多数研究聚焦计算机与数学领域的编程任务,而这类领域仅占美国总就业的 7.6%,其他如管理、法律、建筑、护理等数字化率虽高但在基准测试中的覆盖却极低。这意味着大量现实工作领域在现有基准中几乎未被考察,且这些领域往往具备较高经济价值与复杂挑战,例如目标模糊、需长期验证等。研究提出将基准设计向覆盖不足但高度数字化的领域扩展、提升基准的现实性和复杂度、以及对智能体自主性进行更细致的评估,以便准确衡量其在真实工作中的应用潜力。研究还指出,现阶段基准多偏向信息获取与计算机操作,忽视了人际互动等关键技能的考量,且对不同任务复杂度的提升导致成功率下降。为改善现状,研究建议公开运行轨迹、采用跨领域多技能的评估框架,并借助中间检查点来定位失效环节,未来以 GDPval 等综合性基准为参考,推动更全面的行业覆盖与更可靠的自主执行水平评估。

🏷️ #AI #基准测试 #数字化 #行业覆盖 #自主性

🔗 原文链接
 
 
Back to Top