一、评测环境与评测内容
评测环境简介
统一评测场景
统一物理引擎
统一环境
统一任务
统一标尺
评测模型

二、评测配置及评测指标
评测配置
n_steps(最大步长)= 60;n_envs(并行环境数)= 5;max_episode_steps(最大交互动作数)= 720;n_action_steps(单步推理执行动作数)= 12;
核心指标
平均步长 (Average episode length 即模型在24个任务、100个episode中完成任务所需交互步数的平均值)
单步平均奖励 (Average episode reward 即总奖励除以总步长) 平均评测耗时 (Average seconds per episode 即单一模型每一个任务每一步长平均评测所需时间,单位为秒)
三、阶段性成果
主要指标评测结果







可视化结果

四、下一步规划
汇总六个模型在 24 个任务上的完整结果
制作模型对比表与可视化图表
发布一期中文支持的评测
持续优化评测流程的自动化与稳定性

