
在前述具身智能世界模型评测方案中,EmbodiedCLUE-World 提出了统一12指标评测基准。基于该指标基准 EmbodiedCLUE-World 发布第一期具身智能世界模型评测基准榜单。
SuperCLUE,公众号:CLUE中文语言理解测评基准具身智能世界模型评测方案发布|EmbodiedCLUE-World


评测使用的提示词和图片等内容均来自前述 EmbodiedCLUE 具身智能桌面操作场景评测中的数据。
SuperCLUE,公众号:CLUE中文语言理解测评基准具身智能桌面操作场景统一评测:基准能力、中文支持与综合评分|EmbodiedCLUE





VLM 指标承担语义理解、交互诊断与任务完成度判断。
非 VLM 指标基于确定性算法量化轨迹精度、深度准确性等客观维度。


1.基准模块

2.评分方法
"dimension_scores": {"Task_Completion": {"name_zh": "任务遵循","weight": 0.05,"metrics": ["Instruction_Following","Subgoal_Completion","Final_State_Similarity"],"score": 0.941221},"Physical_Interaction": {"name_zh": "物理交互","weight": 0.05,"metrics": ["Interaction_Quality","Contact_Causality"],"score": 0.963333},"Trajectory_Motion": {"name_zh": "轨迹运动","weight": 0.3,"metrics": ["Trajectory_Accuracy","Motion_Smoothness"],"score": 0.420669},"Spatial_Geometry": {"name_zh": "空间一致","weight": 0.05,"metrics": ["Perspectivity","Depth_Accuracy"],"score": 0.96674},"Content_Consistency": {"name_zh": "内容语义","weight": 0.35,"metrics": ["Subject_Consistency","Semantic_Alignment"],"score": 0.873905},"Failure_Diagnosis": {"name_zh": "结果诊断","weight": 0.2,"metrics": ["Failure_Mode_Diagnosis"],"score": 0.983333}},"overall_valid_score_normalized": 0.772
1.综合分数
在 12 项 RoboCasa-GR1 桌面任务的视频生成评测中,EmbodiedCLUE-World 对 7 个具身世界模型进行了统一流程评测。综合得分由 VLM 指标、Non-VLM 指标以及失败诊断结果共同加权得到,最终分数反映模型在任务完成、物理交互、空间一致、轨迹运动、内容语义和结果诊断等多个维度上的整体表现。
在 12 项 RoboCasa-GR1 桌面任务的视频生成评测中,EmbodiedCLUE-World 对 7 个具身世界模型进行了统一流程评测。综合得分由 VLM 指标、Non-VLM 指标以及失败诊断结果共同加权得到,最终分数反映模型在任务完成、物理交互、空间一致、轨迹运动、内容语义和结果诊断等多个维度上的整体表现。
从综合评分结果看,Doubao-Seedance-2.0 以 77.20 分位列第一,Kling-3.0 以 77.10 分紧随其后,二者整体表现非常接近,均处于当前评测中的第一梯队。Vidu-Q3-Pro、Runway-Gen-4.5 分别获得 76.20 和 76.10 分,构成第二梯队。Hailuo-2.3、Veo-3.1 和 Wan2.7-i2v 分别获得 74.00、71.70 和 68.40 分,整体得分相对靠后。
从榜单排序可以看出,当前头部视频生成模型在具身世界模型任务上的差距并不完全体现在视觉质量本身,而更多体现在动作轨迹、主体稳定性和任务失败率上。部分模型虽然在画面稳定性、空间一致性和语义对齐方面表现较好,但如果机器人动作轨迹不够准确,或出现未关闭、未放置等任务失败现象,最终综合得分仍会受到明显影响。
2.大类指标
为进一步分析不同模型的能力结构,EmbodiedCLUE-World 将最终得分拆分为六个大类维度:任务遵循、物理交互、空间一致、轨迹运动、内容语义和结果诊断。其中,任务遵循、物理交互、空间一致和结果诊断主要来自 VLM 评价结果;轨迹运动和内容语义主要来自 Non-VLM 的轨迹、运动、视觉一致性和语义对齐指标。
从综合评分结果看,Doubao-Seedance-2.0 以 77.20 分位列第一,Kling-3.0 以 77.10 分紧随其后,二者整体表现非常接近,均处于当前评测中的第一梯队。Vidu-Q3-Pro、Runway-Gen-4.5 分别获得 76.20 和 76.10 分,构成第二梯队。Hailuo-2.3、Veo-3.1 和 Wan2.7-i2v 分别获得 74.00、71.70 和 68.40 分,整体得分相对靠后。
从榜单排序可以看出,当前头部视频生成模型在具身世界模型任务上的差距并不完全体现在视觉质量本身,而更多体现在动作轨迹、主体稳定性和任务失败率上。部分模型虽然在画面稳定性、空间一致性和语义对齐方面表现较好,但如果机器人动作轨迹不够准确,或出现未关闭、未放置等任务失败现象,最终综合得分仍会受到明显影响。
2.大类指标
为进一步分析不同模型的能力结构,EmbodiedCLUE-World 将最终得分拆分为六个大类维度:任务遵循、物理交互、空间一致、轨迹运动、内容语义和结果诊断。其中,任务遵循、物理交互、空间一致和结果诊断主要来自 VLM 评价结果;轨迹运动和内容语义主要来自 Non-VLM 的轨迹、运动、视觉一致性和语义对齐指标。
从加权指标分数来看,当前模型在 任务遵循、物理交互、空间一致 三个维度上的差距相对较小。多数模型能够较好理解任务指令,保持基本的场景结构和空间布局。例如,Kling-3.0、Doubao-Seedance-2.0、Runway-Gen-4.5 等模型在任务遵循和空间一致方面均取得较高得分,说明模型已经具备较强的任务语义理解和场景保持能力。
从 VLM 与 Non-VLM 的贡献分拆分来看,VLM 侧指标整体差异较小,头部模型普遍能够获得较高的任务理解和语义评价分数;Non-VLM 侧指标差异更明显,主要反映在机器人动作轨迹、运动平滑性、主体一致性和最终状态稳定性上。也就是说,对于具身世界模型评测而言,单纯依赖 VLM 主观评分容易低估模型之间的真实差距,而引入轨迹、运动和视觉一致性的客观指标后,模型能力差异会更加清晰。
3.模型对比

从 VLM 与 Non-VLM 贡献分来看,VLM 指标更适合评价任务语义和整体合理性,Non-VLM 指标更适合拉开模型之间的真实能力差异。因此,本轮评测没有采用单一 VLM 评分,而是将多模态裁判模型评价与轨迹、运动、深度、主体一致性和语义对齐等客观指标结合起来。这样的混合式评价方式更适合具身世界模型,因为它不仅关注“视频看起来是否合理”,也关注“机器人动作是否真实、任务是否完成、物理过程是否连续”。
总体而言,本轮评测显示:Doubao-Seedance-2.0 与 Kling-3.0 处于第一梯队,Vidu-Q3-Pro 与 Runway-Gen-4.5 紧随其后;Hailuo-2.3、Veo-3.1 和 Wan2.7-i2v 在部分维度上仍存在明显提升空间。 当前具身世界模型的主要竞争点已经不再只是画面质量,而是能否生成具有稳定主体、合理轨迹、清晰任务闭环和低失败率的机器人操作视频。
# 评测示例视频输入示例
评测选取参考成功视频和参测模型在所有12个任务场景下的其中一个视频输出,汇总成 GIF 格式作为示例。

参考成功视频

参考成功视频轨迹

Gen 4.5

Hailuo 2.3

Kling 3.0

Seedance 2.0

Veo 3.1

Vidu Q3 pro

Wan 2.7
输出示例
以Seedance2.0为例,评测输出三个独立json文件,格式如下:
{"depth_accuracy": [0.4658589680989583,[{"video_path": "/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video","video_results": 0.95458984375,"video_results_normalized": 0.8235928347154255},...]],"trajectory_accuracy": [9.16235,[{"video_path": "/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video","video_results": 7.25,"video_results_normalized": 0.17746120330934548},...]],"motion_smoothness": [1.6298582802216213,[{"video_path": "/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video","video_results": 1.906134843826294,"video_results_normalized": 0.7216654086344958},...]],"subject_consistency": [0.006557115598125077,[{"video_path": "/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose/episode_000001/1/video","video_results": 0.884976786095649,"video_results_normalized": 0.884976786095649},...]],"logics": {"generated_dataset_PnPBottleToCabinetClose_episode_000001_1": false,"generated_dataset_PnPBottleToCabinetClose_episode_000002_1": false,..."generated_dataset_PnPCupToDrawerClose_episode_000001_1": false,"generated_dataset_PnPCupToDrawerClose_episode_000002_1": true,...},"semantic_alignment": [0.8507975333333334,[{"video_path": "/worldmodel/WorldArena/video_quality/data_by_model/Seedance2.0/generated_dataset/PnPBottleToCabinetClose_episode/000001/1/video","video_results": 0.790527,"video_results_normalized": 0.790527},...]]}
非VLM指标
[{"video": "PnPBottleToCabinetClose_episode_000001.mp4","metrics": {"Subgoal_Completion": {"score": 5,"reason": "机器人成功完成了接近瓶子、抓取、抬起、搬运至柜子上方、放置、释放以及最后关闭柜门的全部子目标动作。","score_normalized": 1.0,"subgoals": {"approach_object": true,"grasp_object": true,"lift_object": true,"transport_to_target": true,"place_into_target": true,"release_object": true,"close_container": true}},"Contact_Causality": {"score": 5,"reason": "瓶子的运动轨迹与机器人的抓取、移动和放置动作完全吻合,柜门的关闭也是由机械臂的物理推力导致的,物理因果关系清晰合理。","score_normalized": 1.0},"Failure_Mode_Diagnosis": {"primary_failure": "No Failure","secondary_failures": [],"severity": "none","reason": "视频完整且高质量地展示了任务的执行过程,没有发现明显的物理错误或逻辑失败。"}},"raw_response_file": "/worldmodel/WorldArena/video_quality/tmp_extra_VLM/Seedance2.0/PnPBottleToCabinetClose_episode_000001_20260520_151726.json","error": null,"judge_backend": "gemini_openai"},{"video": "PnPBottleToCabinetClose_episode_000001.mp4","metrics": {"Instruction_Following": {"score": 5,"reason": "机器人完整地执行了抓取瓶子、将其放置在柜子隔板上并随后撤离的动作序列,符合指令要求。虽然采样帧中未显示关闭柜门的动作,但搬运和放置的核心任务已清晰完成。","score_normalized": 1.0},"Interaction_Quality": {"score": 4,"reason": "机器人抓取和放置瓶子的过程较为自然,接触点稳定。但在放置过程中,机械臂与柜子边缘存在轻微的视觉重叠或穿模嫌疑,整体交互质量良好。","score_normalized": 0.8},"Perspectivity": {"score": 5,"reason": "视频视角始终保持固定,场景中的柜子、台面和瓶子的空间布局、尺度以及遮挡关系在整个过程中保持高度一致,没有出现视角崩坏或物体漂浮现象。","score_normalized": 1.0}},"raw_response_file": "/worldmodel/WorldArena/video_quality/tmp_VLM/Seedance2.0/PnPBottleToCabinetClose_episode_000001_20260520_150819.json","error": null,"judge_backend": "gemini_openai"},...]
VLM指标
"dimension_scores": {"Task_Completion": {"name_zh": "任务遵循","weight": 0.05,"metrics": ["Instruction_Following","Subgoal_Completion","Final_State_Similarity"],"score": 0.941221},"Physical_Interaction": {"name_zh": "物理交互","weight": 0.05,"metrics": ["Interaction_Quality","Contact_Causality"],"score": 0.963333},"Trajectory_Motion": {"name_zh": "轨迹运动","weight": 0.3,"metrics": ["Trajectory_Accuracy","Motion_Smoothness"],"score": 0.420669},"Spatial_Geometry": {"name_zh": "空间一致","weight": 0.05,"metrics": ["Perspectivity","Depth_Accuracy"],"score": 0.96674},"Content_Consistency": {"name_zh": "内容语义","weight": 0.35,"metrics": ["Subject_Consistency","Semantic_Alignment"],"score": 0.873905},"Failure_Diagnosis": {"name_zh": "结果诊断","weight": 0.2,"metrics": ["Failure_Mode_Diagnosis"],"score": 0.983333}},"overall_valid_score_normalized": 0.772
汇总指标
评测流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供API接口或大模型
5.获得测评报告
