📰 研究揭示AI智能体开发失衡:过度聚焦编程,忽视多数劳动力市场
一项覆盖 72,342 项任务、对 43 个智能体基准测试与美国劳动力市场进行映射的研究显示,当前 AI 智能体开发高度聚焦编程与计算机/数学领域,而在劳动市场中占比极低,管理、法律、建筑与工程等高价值领域的数字化率虽高,但在基准测试中的任务占比却极低。研究指出,数字化程度高的领域往往被忽视,且易被便捷的任务设计所驱动,导致基准测试无法全面反映现实工作需求;相反,个人服务、护理等低薪行业几乎未被覆盖,存在明显失衡。为纠正这一现状,研究提出未来基准测试的三大设计原则:扩大对管理、法律等领域的覆盖;提升基准的现实性与复杂度;实现更精准的评估,能够定位失效环节并从人类演示中提取中间工作流以设定检查点。研究还指出,当前阶段软件开发仍是智能体应用的主流方向,其他行业的自主性和可靠性仍待提升。总体来看,研究强调需在基准设计与评估方法上做出系统性扩展与改进,以更好地对齐社会和经济回报。
🏷️ #AI #基准 #就业 #跨域 #评估
🔗 原文链接
📰 研究揭示AI智能体开发失衡:过度聚焦编程,忽视多数劳动力市场
一项覆盖 72,342 项任务、对 43 个智能体基准测试与美国劳动力市场进行映射的研究显示,当前 AI 智能体开发高度聚焦编程与计算机/数学领域,而在劳动市场中占比极低,管理、法律、建筑与工程等高价值领域的数字化率虽高,但在基准测试中的任务占比却极低。研究指出,数字化程度高的领域往往被忽视,且易被便捷的任务设计所驱动,导致基准测试无法全面反映现实工作需求;相反,个人服务、护理等低薪行业几乎未被覆盖,存在明显失衡。为纠正这一现状,研究提出未来基准测试的三大设计原则:扩大对管理、法律等领域的覆盖;提升基准的现实性与复杂度;实现更精准的评估,能够定位失效环节并从人类演示中提取中间工作流以设定检查点。研究还指出,当前阶段软件开发仍是智能体应用的主流方向,其他行业的自主性和可靠性仍待提升。总体来看,研究强调需在基准设计与评估方法上做出系统性扩展与改进,以更好地对齐社会和经济回报。
🏷️ #AI #基准 #就业 #跨域 #评估
🔗 原文链接