⁣📰 基于数万次真机评测，RoboChallenge首份年度报告发布全球首个大规模真机评测平台RoboChallenge正式发布年度报告，基于数万次远程真机测试，揭示视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战，助力具身智能从实验室迈向通用化，提供公正标尺与行动指南

⁣
📰 基于数万次真机评测，RoboChallenge首份年度报告发布

全球首个大规模真机评测平台RoboChallenge正式发布年度报告，基于数万次远程真机测试，揭示视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战，助力具身智能从实验室迈向通用化，提供公正标尺与行动指南。自2025年上线以来，平台已部署20台真机，覆盖UR5、Franka Panda、ARX5、ALOHA等机型，构建稳定、可复现的真实考场。
年度报告显示评测热度持续攀升，真机验证已成刚需，平台活跃度显著提升，成为检验VLA模型物理世界能力的权威试金石。基础任务趋于成熟，如叠碗、物体移入盒子等成为入门考题；但多步骤决策、长期规划与精细操作等复杂任务仍挑战重重，成功率偏低，部分甚至接近零。
目前Top模型在Table30评测集上的总体成功率约50%，体现技术进步与挑战并存。VLA模型在精细操作方面仍需突破，公开的错题集为迭代提供关键参考。展望未来，RoboChallenge将扩展更多机型和真实场景，推进分布式评测、构建开放共同体，降低真机门槛，让失败成为进步阶梯，推动具身智能在现实世界落地生根。

🏷️ #具身智能 #真机评测 #开放共同体 #评测标准 #行业共识

🔗 原文链接