📰 基于数万次真机评测,RoboChallenge首份年度报告发布
全球首个大规模真机评测平台RoboChallenge正式发布年度报告,基于数万次远程真机测试,揭示视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战,助力具身智能从实验室迈向通用化,提供公正标尺与行动指南。自2025年上线以来,平台已部署20台真机,覆盖UR5、Franka Panda、ARX5、ALOHA等机型,构建稳定、可复现的真实考场。
年度报告显示评测热度持续攀升,真机验证已成刚需,平台活跃度显著提升,成为检验VLA模型物理世界能力的权威试金石。基础任务趋于成熟,如叠碗、物体移入盒子等成为入门考题;但多步骤决策、长期规划与精细操作等复杂任务仍挑战重重,成功率偏低,部分甚至接近零。
目前Top模型在Table30评测集上的总体成功率约50%,体现技术进步与挑战并存。VLA模型在精细操作方面仍需突破,公开的错题集为迭代提供关键参考。展望未来,RoboChallenge将扩展更多机型和真实场景,推进分布式评测、构建开放共同体,降低真机门槛,让失败成为进步阶梯,推动具身智能在现实世界落地生根。
🏷️ #具身智能 #真机评测 #开放共同体 #评测标准 #行业共识
🔗 原文链接
📰 基于数万次真机评测,RoboChallenge首份年度报告发布
全球首个大规模真机评测平台RoboChallenge正式发布年度报告,基于数万次远程真机测试,揭示视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战,助力具身智能从实验室迈向通用化,提供公正标尺与行动指南。自2025年上线以来,平台已部署20台真机,覆盖UR5、Franka Panda、ARX5、ALOHA等机型,构建稳定、可复现的真实考场。
年度报告显示评测热度持续攀升,真机验证已成刚需,平台活跃度显著提升,成为检验VLA模型物理世界能力的权威试金石。基础任务趋于成熟,如叠碗、物体移入盒子等成为入门考题;但多步骤决策、长期规划与精细操作等复杂任务仍挑战重重,成功率偏低,部分甚至接近零。
目前Top模型在Table30评测集上的总体成功率约50%,体现技术进步与挑战并存。VLA模型在精细操作方面仍需突破,公开的错题集为迭代提供关键参考。展望未来,RoboChallenge将扩展更多机型和真实场景,推进分布式评测、构建开放共同体,降低真机门槛,让失败成为进步阶梯,推动具身智能在现实世界落地生根。
🏷️ #具身智能 #真机评测 #开放共同体 #评测标准 #行业共识
🔗 原文链接