lch
发布于 2026-03-30 / 0 阅读
0

具身智能(大脑)桌面操作场景模型统一评测进展快报 | EmbodiedCLUE

EmbodiedCLUE-VLA 具身智能大脑测评基准近期在 RoboCasa GR1 Tabletop 场景下,针对六个采用不同技术路线的模型,在统一环境、统一任务集与统一评测规则下完成了首轮标准化评测。该项工作的重点并非针对单一模型进行调优,而在于建立一致、可复用的评测标尺,从而为后续模型对比、性能分析与结论形成提供可靠依据。

一、评测环境与评测内容

评测环境简介

  • 统一评测场景

RoboCasa GR1 Tabletop场景是一个专为桌面操作任务设计的仿真环境,包含多种家用物体(如杯子、土豆、牛奶、瓶子、易拉罐等)和交互容器(抽屉、微波炉、橱柜等)。该场景以 GR1 人形机器人作为操作主体,强调双手协同与精细操作,适合评估模型在真实复杂桌面场景中的泛化能力。
  • 统一物理引擎

MuJoCo(Multi-Joint Dynamics with Contact)物理引擎以高精度刚体动力学和稳定接触求解著称,被广泛用于机器人仿真研究。它能够准确模拟抓取、滑动、碰撞等物理交互,为策略学习提供接近真实世界的反馈。
  • 统一环境
RoboCasa GR1 Tabletop 评测场景 + MuJoCo 物理引擎
  • 统一任务
覆盖 24 个桌面操作任务,包括抓取、放置,以及关闭抽屉 / 微波炉 / 橱柜等精细动作
  • 统一标尺
保证不同模型在相同条件下运行,减少因接口差异带来的“不可比”

评测模型

EmbodiedCLUE-VLA具身智能大脑测评基准选取截至目前在RoboCasa GR1 Tabletop上统一训练过且有开源权重的6个模型参与本次评测。目前已完成统一接入的6个模型如下表所示

这六个模型涵盖了starVLAABotGR00T等多条技术路线。

二、评测配置及评测指标

评测配置

为保证可比性,评测将关键参数拉齐:
✅ 24 个统一任务
✅ 随机种子统一为 (0, 7)
✅ 每个任务每个种子 50 个 episode
✅ 统一环境接口与日志输出
✅ bash 层统一:
n_steps(最大步长)= 60;n_envs(并行环境数)= 5max_episode_steps(最大交互动作数)= 720n_action_steps(单步推理执行动作数)= 12


上述参数用以控制评测结果的一致性和可复现性,评测结果输出为统一格式,便于后续批量汇总与对比。

核心指标

当前阶段主指标仍为成功率(Success rate 即模型在100次模拟中的成功次数除以总次数的值,辅以:
  • 平均步长 (Average episode length 即模型在24个任务、100个episode中完成任务所需交互步数的平均值)
  • 单步平均奖励 (Average episode reward 即总奖励除以总步长)
  • 平均评测耗时 (Average seconds per episode 即单一模型每一个任务每一步长平均评测所需时间,单位为秒)
成功率 直接反映模型在任务级完成能力上的差异,也是后续横向对比的主要依据;平均步长 和 单步平均奖励 则从效率和决策质量两个维度补充评估;平均评测耗时 为实际应用中的资源消耗提供参考。

三、阶段性成果

主要指标评测结果

当前EmbodiedCLUE-VLA具身智能大脑测评基准实现了多模型评测链路打通,使得6个模型可以在同一环境、相近配置下稳定运行。而且基于已有模型,基准评测了每个模型在5个大类任务和24个细分任务下的各个主要指标成绩。下表是模型评测总表,表内将每个指标的最佳模型成绩标粗

下表是各个模型在5个主要大类任务上的平均成功率,表内将每个任务的最佳模型成绩标粗:

下列5张表是各个模型在24个细分任务上的平均成功率:






可视化结果

为了方便可视化,评测后将每个模型的每个episode的任务对应的视频输出为.mp4文件,并从这些文件中选取每一个任务的成功案例合并为可视化动图,用以展示渲染后的模拟场景下的机器人连续动作。下图是ABot-M0中24个任务的成功示例图:
来源模型:ABot-M0
由于本次评测是在统一任务场景统一seed设置下进行的,模型评测场景基本相同,当前示例可以很好的反应6个模型的动作输出。下图是在ABot-M0中选取的八个典型任务场景的机器人连续动作:

四、下一步规划

接下来EmbodiedCLUE-VLA具身智能大脑测评基准准备:
  • 汇总六个模型在 24 个任务上的完整结果
  • 制作模型对比表与可视化图表
  • 发布一期中文支持的评测
  • 持续优化评测流程的自动化与稳定性
如果你对某个模型的细节、任务定义或评测方式感兴趣,欢迎随时交流~