⁣📰 研究揭示AI智能体开发失衡：过度聚焦编程，忽视多数劳动力市场一项覆盖 72,342 项任务、对 43 个智能体基准测试与美国劳动力市场进行映射的研究显示，当前 AI 智能体开发高度聚焦编程与计算机/数学领域，而在劳动市场中占比极低，管理、法律、建筑与工程等高价值领域的数字化率虽高，但在基准测试中的任务占比却极低

⁣
📰 研究揭示AI智能体开发失衡：过度聚焦编程，忽视多数劳动力市场

一项覆盖 72,342 项任务、对 43 个智能体基准测试与美国劳动力市场进行映射的研究显示，当前 AI 智能体开发高度聚焦编程与计算机/数学领域，而在劳动市场中占比极低，管理、法律、建筑与工程等高价值领域的数字化率虽高，但在基准测试中的任务占比却极低。研究指出，数字化程度高的领域往往被忽视，且易被便捷的任务设计所驱动，导致基准测试无法全面反映现实工作需求；相反，个人服务、护理等低薪行业几乎未被覆盖，存在明显失衡。为纠正这一现状，研究提出未来基准测试的三大设计原则：扩大对管理、法律等领域的覆盖；提升基准的现实性与复杂度；实现更精准的评估，能够定位失效环节并从人类演示中提取中间工作流以设定检查点。研究还指出，当前阶段软件开发仍是智能体应用的主流方向，其他行业的自主性和可靠性仍待提升。总体来看，研究强调需在基准设计与评估方法上做出系统性扩展与改进，以更好地对齐社会和经济回报。

🏷️ #AI #基准 #就业 #跨域 #评估

🔗 原文链接