EmbodiedCLUE-VLA 具身智能大脑测评基准近期在 RoboCasa GR1 Tabletop 场景下，针对六个采用不同技术路线的模型，在统一环境、统一任务集与统一评测规则下完成了首轮标准化评测。该项工作的重点并非针对单一模型进行调优，而在于建立一致、可复用的评测标尺，从而为后续模型对比、性能分析与结论形成提供可靠依据。

一、评测环境与评测内容

评测环境简介

统一评测场景

RoboCasa GR1 Tabletop场景是一个专为桌面操作任务设计的仿真环境，包含多种家用物体（如杯子、土豆、牛奶、瓶子、易拉罐等）和交互容器（抽屉、微波炉、橱柜等）。该场景以 GR1 人形机器人作为操作主体，强调双手协同与精细操作，适合评估模型在真实复杂桌面场景中的泛化能力。

统一物理引擎

MuJoCo（Multi-Joint Dynamics with Contact）物理引擎以高精度刚体动力学和稳定接触求解著称，被广泛用于机器人仿真研究。它能够准确模拟抓取、滑动、碰撞等物理交互，为策略学习提供接近真实世界的反馈。

统一环境

RoboCasa GR1 Tabletop 评测场景 + MuJoCo 物理引擎

统一任务

覆盖 24 个桌面操作任务，包括抓取、放置，以及关闭抽屉 / 微波炉 / 橱柜等精细动作

统一标尺

保证不同模型在相同条件下运行，减少因接口差异带来的“不可比”

评测模型

EmbodiedCLUE-VLA具身智能大脑测评基准选取截至目前在RoboCasa GR1 Tabletop上统一训练过且有开源权重的6个模型参与本次评测。目前已完成统一接入的6个模型如下表所示：

这六个模型涵盖了starVLA、ABot和GR00T等多条技术路线。

二、评测配置及评测指标

评测配置

为保证可比性，评测将关键参数拉齐：

✅ 24 个统一任务

✅ 随机种子统一为 (0, 7)

✅ 每个任务每个种子 50 个 episode

✅ 统一环境接口与日志输出

✅ bash 层统一：

n_steps（最大步长）= 60;n_envs（并行环境数）= 5；max_episode_steps（最大交互动作数）= 720；n_action_steps（单步推理执行动作数）= 12；

上述参数用以控制评测结果的一致性和可复现性，评测结果输出为统一格式，便于后续批量汇总与对比。

核心指标

当前阶段主指标仍为成功率（Success rate 即模型在100次模拟中的成功次数除以总次数的值），辅以：

平均步长 (Average episode length 即模型在24个任务、100个episode中完成任务所需交互步数的平均值）

单步平均奖励 (Average episode reward 即总奖励除以总步长）
平均评测耗时 (Average seconds per episode 即单一模型每一个任务每一步长平均评测所需时间，单位为秒）

成功率直接反映模型在任务级完成能力上的差异，也是后续横向对比的主要依据；平均步长和单步平均奖励则从效率和决策质量两个维度补充评估；平均评测耗时为实际应用中的资源消耗提供参考。

三、阶段性成果

主要指标评测结果

当前EmbodiedCLUE-VLA具身智能大脑测评基准实现了多模型评测链路打通，使得6个模型可以在同一环境、相近配置下稳定运行。而且基于已有模型，基准评测了每个模型在5个大类任务和24个细分任务下的各个主要指标成绩。下表是模型评测总表，表内将每个指标的最佳模型成绩标粗：

下表是各个模型在5个主要大类任务上的平均成功率，表内将每个任务的最佳模型成绩标粗：

下列5张表是各个模型在24个细分任务上的平均成功率：

可视化结果

为了方便可视化，评测后将每个模型的每个episode的任务对应的视频输出为.mp4文件，并从这些文件中选取每一个任务的成功案例合并为可视化动图，用以展示渲染后的模拟场景下的机器人连续动作。下图是ABot-M0中24个任务的成功示例图：

来源模型：ABot-M0

由于本次评测是在统一任务场景统一seed设置下进行的，模型评测场景基本相同，当前示例可以很好的反应6个模型的动作输出。下图是在ABot-M0中选取的八个典型任务场景的机器人连续动作：

四、下一步规划

接下来EmbodiedCLUE-VLA具身智能大脑测评基准准备：

汇总六个模型在 24 个任务上的完整结果

制作模型对比表与可视化图表

发布一期中文支持的评测

持续优化评测流程的自动化与稳定性

如果你对某个模型的细节、任务定义或评测方式感兴趣，欢迎随时交流～

菜单

分享

具身智能（大脑）桌面操作场景模型统一评测进展快报 | EmbodiedCLUE

一、评测环境与评测内容

评测环境简介

评测模型

二、评测配置及评测指标

评测配置

核心指标

三、阶段性成果

主要指标评测结果

可视化结果

四、下一步规划

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业