lch
发布于 2026-05-22 / 0 阅读
0

具身智能世界模型评测榜单发布,Seedance 2.0暂居第一|EmbodiedCLUE-World

# 测评背景

在前述具身智能世界模型评测方案中,EmbodiedCLUE-World 提出了统一12指标评测基准。基于该指标基准 EmbodiedCLUE-World 发布第一期具身智能世界模型评测基准榜单。

SuperCLUE,公众号:CLUE中文语言理解测评基准具身智能世界模型评测方案发布|EmbodiedCLUE-World
# 基准介绍
基准场景设计
评测流程设计

评测使用的提示词和图片等内容均来自前述 EmbodiedCLUE 具身智能桌面操作场景评测中的数据。

SuperCLUE,公众号:CLUE中文语言理解测评基准具身智能桌面操作场景统一评测:基准能力、中文支持与综合评分|EmbodiedCLUE
# 评测结果
综合榜单
指标榜单
# 国内外头部模型对比
总分对比
加权对比
一、评测内容
参测模型
EmbodiedCLUE-World 选取当下国内外头部视频生成世界模型参与基准评测,所有参测模型均未在待测场景(RoboCasa-GR1 桌面操作场景)预先微调。完整流程确保所有参测模型在 zero-shot 条件下参与评测。
上述所有模型使用均通过 API 调用完成
二、评测基准
1.基准指标
EmbodiedCLUE-World 评测以 RoboCasa-GR1 桌面操作场景为准,设计场景图片与任务提示词作为评测数据。统一评测指标采用“6+6”混合结构,由6项基于多模态大模型(VLM)评估的指标与6项基于确定性算法计算的指标组成。其中:
  • VLM 指标承担语义理解、交互诊断与任务完成度判断。

  • 非 VLM 指标基于确定性算法量化轨迹精度、深度准确性等客观维度。

完整的具身世界模型基准评测指标如下:
2.任务场景
在前一阶段的具身智能桌面操作场景评测中,EmbodiedCLUE-VLA 详细介绍过使用的基准场景 Robocasa-GR1-Tabletop-Tasks (具身智能桌面操作场景统一评测)。EmbodiedCLUE-World 延续了前述 VLA 评测的基准场景,本次具身世界模型评测选取的任务场景如下:
三、评测流程

1.基准模块

EmbodiedCLUE-World 基准评测设计分为两个模块:数据处理模块、指标评价模块。
数据处理模块:负责将不同视频生成模型的输出统一整理为标准评测输入。对于每个模型生成的视频,系统首先按照任务名称、episode 编号和模型编号进行结构化归档,将原始视频统一映射到标准目录中,并进一步生成 VLM 评价所需的扁平化视频索引与任务指令文件。同时,针对非 VLM 指标,系统会将视频转换为逐帧图像、轨迹文件和必要的中间缓存,使不同模型的视频能够在同一任务、同一参考样本、同一评价流程下进行比较。
指标评价模块:负责对处理后的生成视频进行多维度评分。评测系统将指标分为 VLM 指标与非 VLM 指标两类:VLM 评价会从生成视频中采样关键帧,并结合任务指令输入多模态裁判模型,输出结构化 JSON 评分结果;非 VLM 评价则基于深度估计、轨迹比较、视觉特征相似度、运动平滑性和语义对齐方法,生成可归一化的连续分数。最终,系统会将所有指标统一合并到每个视频与每个模型的汇总结果中,形成可比较、可复现、可分析的评测输出。

2.评分方法

EmbodiedCLUE-World 采用 分指标归一化 + 维度加权汇总 的评分方法。所有进入总分计算的指标都会被转换到 [0,1] 区间,其中 1 表示表现最好,0 表示表现最差。对于 VLM 评分指标,原始分数通常为 1–5 分,系统将其除以 5 得到归一化分数;对于非 VLM 指标,系统保留原始分数作为 raw_score,同时使用归一化后的 score 参与总分计算。以 Seedance2.0 为例,完整得分汇总如下:
"dimension_scores": {      "Task_Completion": {        "name_zh": "任务遵循",        "weight": 0.05,        "metrics": [          "Instruction_Following",          "Subgoal_Completion",          "Final_State_Similarity"        ],        "score": 0.941221      },      "Physical_Interaction": {        "name_zh": "物理交互",        "weight": 0.05,        "metrics": [          "Interaction_Quality",          "Contact_Causality"        ],        "score": 0.963333      },      "Trajectory_Motion": {        "name_zh": "轨迹运动",        "weight": 0.3,        "metrics": [          "Trajectory_Accuracy",          "Motion_Smoothness"        ],        "score": 0.420669      },      "Spatial_Geometry": {        "name_zh": "空间一致",        "weight": 0.05,        "metrics": [          "Perspectivity",          "Depth_Accuracy"        ],        "score": 0.96674      },      "Content_Consistency": {        "name_zh": "内容语义",        "weight": 0.35,        "metrics": [          "Subject_Consistency",          "Semantic_Alignment"        ],        "score": 0.873905      },      "Failure_Diagnosis": {        "name_zh": "结果诊断",        "weight": 0.2,        "metrics": [          "Failure_Mode_Diagnosis"        ],        "score": 0.983333      }    },    "overall_valid_score_normalized": 0.772
四、实验结果

1.综合分数

在 12 项 RoboCasa-GR1 桌面任务的视频生成评测中,EmbodiedCLUE-World 对 7 个具身世界模型进行了统一流程评测。综合得分由 VLM 指标、Non-VLM 指标以及失败诊断结果共同加权得到,最终分数反映模型在任务完成、物理交互、空间一致、轨迹运动、内容语义和结果诊断等多个维度上的整体表现。

从综合评分结果看,Doubao-Seedance-2.0 以 77.20 分位列第一,Kling-3.0 以 77.10 分紧随其后,二者整体表现非常接近,均处于当前评测中的第一梯队。Vidu-Q3-ProRunway-Gen-4.5 分别获得 76.20 和 76.10 分,构成第二梯队。Hailuo-2.3Veo-3.1 和 Wan2.7-i2v 分别获得 74.0071.70 和 68.40 分,整体得分相对靠后。

从榜单排序可以看出,当前头部视频生成模型在具身世界模型任务上的差距并不完全体现在视觉质量本身,而更多体现在动作轨迹、主体稳定性和任务失败率上。部分模型虽然在画面稳定性、空间一致性和语义对齐方面表现较好,但如果机器人动作轨迹不够准确,或出现未关闭、未放置等任务失败现象,最终综合得分仍会受到明显影响。

2.大类指标

为进一步分析不同模型的能力结构,EmbodiedCLUE-World 将最终得分拆分为六个大类维度:任务遵循、物理交互、空间一致、轨迹运动、内容语义和结果诊断。其中,任务遵循、物理交互、空间一致和结果诊断主要来自 VLM 评价结果;轨迹运动和内容语义主要来自 Non-VLM 的轨迹、运动、视觉一致性和语义对齐指标。

从加权指标分数来看,当前模型在 任务遵循、物理交互、空间一致 三个维度上的差距相对较小。多数模型能够较好理解任务指令,保持基本的场景结构和空间布局。例如,Kling-3.0、Doubao-Seedance-2.0、Runway-Gen-4.5 等模型在任务遵循和空间一致方面均取得较高得分,说明模型已经具备较强的任务语义理解和场景保持能力。

从 VLM 与 Non-VLM 的贡献分拆分来看,VLM 侧指标整体差异较小,头部模型普遍能够获得较高的任务理解和语义评价分数;Non-VLM 侧指标差异更明显,主要反映在机器人动作轨迹、运动平滑性、主体一致性和最终状态稳定性上。也就是说,对于具身世界模型评测而言,单纯依赖 VLM 主观评分容易低估模型之间的真实差距,而引入轨迹、运动和视觉一致性的客观指标后,模型能力差异会更加清晰。

3.模型对比


从 VLM 与 Non-VLM 贡献分来看,VLM 指标更适合评价任务语义和整体合理性,Non-VLM 指标更适合拉开模型之间的真实能力差异。因此,本轮评测没有采用单一 VLM 评分,而是将多模态裁判模型评价与轨迹、运动、深度、主体一致性和语义对齐等客观指标结合起来。这样的混合式评价方式更适合具身世界模型,因为它不仅关注“视频看起来是否合理”,也关注“机器人动作是否真实、任务是否完成、物理过程是否连续”。

总体而言,本轮评测显示:Doubao-Seedance-2.0 与 Kling-3.0 处于第一梯队,Vidu-Q3-Pro 与 Runway-Gen-4.5 紧随其后;Hailuo-2.3、Veo-3.1 和 Wan2.7-i2v 在部分维度上仍存在明显提升空间 当前具身世界模型的主要竞争点已经不再只是画面质量,而是能否生成具有稳定主体、合理轨迹、清晰任务闭环和低失败率的机器人操作视频。

# 评测示例

视频输入示例

评测选取参考成功视频和参测模型在所有12个任务场景下的其中一个视频输出,汇总成 GIF 格式作为示例。

参考成功视频

参考成功视频轨迹

Gen 4.5

Hailuo 2.3

Kling 3.0

Seedance 2.0

Veo 3.1

Vidu Q3 pro

Wan 2.7


输出示例

以Seedance2.0为例,评测输出三个独立json文件,格式如下:

{  "depth_accuracy": [    0.4658589680989583,    [      {        "video_path""/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video",        "video_results"0.95458984375,        "video_results_normalized"0.8235928347154255      },      ...    ]  ],  "trajectory_accuracy": [    9.16235,    [      {        "video_path""/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video",        "video_results"7.25,        "video_results_normalized"0.17746120330934548      },      ...    ]  ],  "motion_smoothness": [    1.6298582802216213,    [      {        "video_path""/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video",        "video_results"1.906134843826294,        "video_results_normalized"0.7216654086344958      },      ...    ]  ],  "subject_consistency": [    0.006557115598125077,    [      {        "video_path""/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video",        "video_results"0.884976786095649,        "video_results_normalized"0.884976786095649      },      ...    ]  ],  "logics": {    "generated_dataset_PnPBottleToCabinetClose_episode_000001_1"false,    "generated_dataset_PnPBottleToCabinetClose_episode_000002_1"false,    ...    "generated_dataset_PnPCupToDrawerClose_episode_000001_1"false,    "generated_dataset_PnPCupToDrawerClose_episode_000002_1"true,    ...   },  "semantic_alignment": [    0.8507975333333334,    [      {        "video_path""/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose_episode/000001/1/video",        "video_results"0.790527,        "video_results_normalized"0.790527      },      ...    ]  ]}

非VLM指标

[  {    "video""PnPBottleToCabinetClose_episode_000001.mp4",    "metrics": {      "Subgoal_Completion": {        "score"5,        "reason""机器人成功完成了接近瓶子、抓取、抬起、搬运至柜子上方、放置、释放以及最后关闭柜门的全部子目标动作。",        "score_normalized"1.0,        "subgoals": {          "approach_object"true,          "grasp_object"true,          "lift_object"true,          "transport_to_target"true,          "place_into_target"true,          "release_object"true,          "close_container"true        }      },      "Contact_Causality": {        "score"5,        "reason""瓶子的运动轨迹与机器人的抓取、移动和放置动作完全吻合,柜门的关闭也是由机械臂的物理推力导致的,物理因果关系清晰合理。",        "score_normalized"1.0      },      "Failure_Mode_Diagnosis": {        "primary_failure""No Failure",        "secondary_failures": [],        "severity""none",        "reason""视频完整且高质量地展示了任务的执行过程,没有发现明显的物理错误或逻辑失败。"      }    },    "raw_response_file""/worldmodel/WorldArena/video_quality/tmp_extra_VLM/Seedance2.0/PnPBottleToCabinetClose_episode_000001_20260520_151726.json",    "error"null,    "judge_backend""gemini_openai"  },  {    "video""PnPBottleToCabinetClose_episode_000001.mp4",    "metrics": {      "Instruction_Following": {        "score"5,        "reason""机器人完整地执行了抓取瓶子、将其放置在柜子隔板上并随后撤离的动作序列,符合指令要求。虽然采样帧中未显示关闭柜门的动作,但搬运和放置的核心任务已清晰完成。",        "score_normalized"1.0      },      "Interaction_Quality": {        "score"4,        "reason""机器人抓取和放置瓶子的过程较为自然,接触点稳定。但在放置过程中,机械臂与柜子边缘存在轻微的视觉重叠或穿模嫌疑,整体交互质量良好。",        "score_normalized"0.8      },      "Perspectivity": {        "score"5,        "reason""视频视角始终保持固定,场景中的柜子、台面和瓶子的空间布局、尺度以及遮挡关系在整个过程中保持高度一致,没有出现视角崩坏或物体漂浮现象。",        "score_normalized"1.0      }    },    "raw_response_file""/worldmodel/WorldArena/video_quality/tmp_VLM/Seedance2.0/PnPBottleToCabinetClose_episode_000001_20260520_150819.json",    "error"null,    "judge_backend""gemini_openai"  },  ...]

VLM指标

"dimension_scores": {      "Task_Completion": {        "name_zh": "任务遵循",        "weight": 0.05,        "metrics": [          "Instruction_Following",          "Subgoal_Completion",          "Final_State_Similarity"        ],        "score": 0.941221      },      "Physical_Interaction": {        "name_zh": "物理交互",        "weight": 0.05,        "metrics": [          "Interaction_Quality",          "Contact_Causality"        ],        "score": 0.963333      },      "Trajectory_Motion": {        "name_zh": "轨迹运动",        "weight": 0.3,        "metrics": [          "Trajectory_Accuracy",          "Motion_Smoothness"        ],        "score": 0.420669      },      "Spatial_Geometry": {        "name_zh": "空间一致",        "weight": 0.05,        "metrics": [          "Perspectivity",          "Depth_Accuracy"        ],        "score": 0.96674      },      "Content_Consistency": {        "name_zh": "内容语义",        "weight": 0.35,        "metrics": [          "Subject_Consistency",          "Semantic_Alignment"        ],        "score": 0.873905      },      "Failure_Diagnosis": {        "name_zh": "结果诊断",        "weight": 0.2,        "metrics": [          "Failure_Mode_Diagnosis"        ],        "score": 0.983333      }    },    "overall_valid_score_normalized": 0.772

汇总指标

评测邀请

评测流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告


申请评测地址
邮件标题EmbodiedCLUE-World「具身世界模型」测评申请,邮件请发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

# 加入社群