
过去的具身智能,更像是在“拼模块”。Pelican-Unify 1.0 想做的事情,是把“理解、推理、想象、行动”真正放进一个统一的大脑里,让它们共享表征、彼此约束、共同演化。这也是为什么,北京人形会把它称为“具身大一统”模型。
WorldArena世界第一,为什么这次含金量极高?
我翻阅了它的网站和一些资料,如果说过去很多 AI 榜单更像是“笔试”,那 WorldArena 更像是具身智能领域的“实战高考”。
它并不是单纯测视频生成效果,也不是只看机器人会不会执行动作,而是会同时考察模型在真实物理世界中的综合能力,包括空间理解、物理一致性、运动合理性、长程任务能力、未来预测能力以及现实可控性。这个榜单背后联合发起的机构,包括清华大学、普林斯顿大学、新加坡国立大学、北京大学、中国科学院、上海交通大学、中国科学技术大学等顶级研究机构,已经成为目前全球具身世界模型领域公认最有含金量的评测体系之一。
这个榜单里的竞争对手,并不是普通模型,而是全球最强的一批世界模型、VLA 模型与视频生成模型同场竞技。包括 Google DeepMind 的 Veo 系列、各种 World Model 路线、国际顶级 VLA 团队以及头部视频生成模型,几乎都在这个榜单中直接竞争。也就是说,这不是“国产模型内部排名”,而是真正意义上的全球混战。
我举得Pelican-Unify 1.0 最可怕的地方在于,它并不是靠“偏科”拿下第一,而是在多个关键指标中同时领先。论文中提到,它在 WorldArena 的 EWM Score(综合得分)中排名第一,这个指标不是单独看视觉效果,而是综合衡量视觉真实性、运动质量、内容一致性、物理遵循以及 3D 空间准确性。换句话说,它考察的是:模型生成的未来世界,到底是不是真的像现实世界。

它在 3D Accuracy 上已经接近满分。这个指标的重要性,其实远超很多人的想象。因为机器人与普通 AI 最大的不同,在于它必须真正理解三维世界。它不仅要知道“这里有个杯子”,还必须知道杯子与桌面的空间关系、接触状态、移动路径,以及动作之后世界会发生什么变化。
我在论文里还提到一个非常关键的侧面验证:在人类盲测中,Pelican-Unify 1.0 不仅超过了 Seedance2.0 等专用视频生成路线,而且是唯一一个同时在 controllability(可控性)、task success(任务成功率)、temporal consistency(时序一致性)和 physical plausibility(物理合理性)上同时领先的模型。这意味着,它不是单纯“生成得好看”,而是真正开始具备“物理智能”。

而北京人形也因此成为目前全球唯一一个同时在 WorldArena 两大核心赛道中夺冠的团队。此前,它们的具身世界模型 WoW 已经登顶 WorldArena Data Engine(数据引擎)赛道,并且获得HuggingFace 官方重点推荐,被斯坦福、PI 等顶尖团队引用。如今 Pelican-Unify 1.0 再次登顶综合榜单,也意味着北京人形已经开始形成真正的体系级优势。
过去的机器人,为什么一直“不够聪明”?
过去几年,整个具身智能行业其实一直沿着三条路线高速发展:
VLM(视觉语言模型)、VLA(视觉语言动作模型)和。 World Model(世界模型)。于是整个行业开始形成一种越来越复杂的结构:感知模型负责看,推理模型负责想,世界模型负责预测未来,动作模型负责执行,再通过规划器把这些东西拼接起来。理论上功能越来越强,但现实问题也越来越明显。系统之间高度割裂,模块之间很难协同,长程任务容易崩,复杂场景稳定性差,真实世界泛化能力不足。
最核心的问题就在于:这些能力虽然都很强,但彼此之间并没有真正形成统一认知。
机器人可能知道“杯子在哪”,但不知道“为什么拿杯子”;它可能知道“下一步动作是什么”,但不知道“这个动作会导致什么后果”;它甚至可以生成未来视频,但这个未来世界与动作之间,并没有真正形成闭环。
而 Pelican-Unify 1.0 最大的不同,就在于它不再试图把这些模块“拼接”起来,而是从底层开始,让它们变成同一个系统的一部分。
论文中提出了一个非常核心的概念:Unified Embodied Intelligence,也就是“统一具身智能”。
它的核心思想其实很简单:
理解、推理、想象、行动,不应该是四个独立模块,而应该是同一个智能系统里的不同侧面。
Pelican-Unify 最核心的突破:三个“统一”
Pelican-Unify 1.0 的技术核心,可以总结为“三个统一”:
第一个,是统一理解。过去很多机器人系统中,场景、语言指令、历史动作、视觉上下文往往是分别编码的。机器人可能知道眼前是什么,却未必知道之前做过什么。而 Pelican-Unify 1.0 会把场景、指令、动作历史以及视觉上下文全部映射到同一个共享语义空间中。
它不仅知道“自己看到了什么”,还知道“当前任务是什么”“之前做了什么”“世界状态正在如何变化”。这种变化看似只是架构升级,但本质上,它让机器人第一次真正形成了“任务状态理解”。
第二个,是统一推理。很多模型也会生成 Chain-of-Thought(思维链),但很多时候,这些推理只是“文字解释”,并不会真正影响动作。而Pelican-Unify 1.0 的不同在于,它让推理真正参与动作生成。
论文中有一个非常关键的 latent z。它不是简单的模块接口,而是整个物理智能闭环的共享状态。理解、推理、未来预测、动作生成,都会共同作用于这个 latent z。文本损失、视频损失、动作损失,也都会同时反向传播到这个共享表示中。
第三个,也是最核心的部分——统一生成。过去行业通常会把“未来预测”和“动作生成”拆成两套系统。世界模型负责生成未来视频,动作模型负责输出动作轨迹。但 Pelican-Unify 1.0 把这两件事放进了同一个扩散生成过程中。
也就是说,它会同时生成未来视频和未来动作。
动作与未来世界,是一起被“想象”出来的。

这个变化非常关键。过去机器人很多时候只是“看到图像→输出动作”,本质更像条件反射。但现在,它会先预测:
“如果我这样动,未来会发生什么?”
未来画面会约束动作是否合理;
动作轨迹又会约束未来是否真实可达。
机器人第一次真正开始拥有“后果意识”。
“先想象,再行动”,真正接近人类行为逻辑
Pelican-Unify 1.0 最惊艳的地方,其实并不只是榜单成绩,而是它已经开始展现出非常接近人类的行为逻辑。
论文里有一个特别重要的实验:组合泛化。
训练阶段,模型只学过两个原子任务:
插 RJ45 接头;
做防水处理。
但它从来没见过“先插线、再做防水”的完整组合任务。
测试时,研究人员只给机器人一句自然语言:
“先插 RJ45,再做防水。”
结果,Pelican-Unify 1.0 成功完成了整个长程组合任务。

这个结果非常重要,因为它意味着模型不是在死记动作,而是真正开始理解:
当前状态是什么;
下一步目标是什么;
未来世界会如何变化。

更关键的是,它已经开始具备很强的零样本泛化能力。
论文中提到,在多个 unseen tasks(未见任务)中,仅提供极少量数据,它依然能够完成迁移。这意味着,它学习到的已经不只是固定动作模板,而是更底层的物理规律与任务逻辑。
而这种能力,恰恰是通用具身智能真正需要的东西。
因为现实世界不会像训练集一样标准化。
真正的机器人,必须能够自己组合技能、理解新场景、推演未来后果,而不是永远重复训练过的动作。
为什么说“国家队”开始进入深水区?
很多人会把 Pelican-Unify 1.0 看成一个单纯的大模型突破,但实际上,北京人形真正厉害的地方,可能并不只是模型本身,而是它背后的全栈体系。
因为具身智能与传统互联网 AI 最大的不同在于,它最终一定要回到真实世界。而世界模型最难的,从来不是论文,而是真实机器人数据。尤其是长程任务、多阶段操作、复杂接触以及真实物理交互的数据,成本极高。
很多团队之所以停留在 Demo 阶段,本质原因就是:没有真实世界闭环。
而北京人形的优势,在于它并不只是一个单独做模型的团队。
它同时拥有:
通用机器人平台“具身天工”、通用具身智能平台“慧思开物”,以及真实机器人和真实任务场景。
这种“本体—大脑—平台—数据”的全栈闭环能力,其实非常重要。
因为未来具身智能竞争,很可能不再只是比模型参数,而是比:
谁拥有更完整的数据闭环;
谁拥有更多真实世界反馈;
谁能够更快完成“模型—机器人—现实任务”的协同进化。
这意味着,它不是“实验室路线”,而是真正开始形成“模型—机器人—数据—反馈”的完整循环。

更重要的是,这次 Pelican-Unify 1.0 并不是只在理解和推理方向领先,它在动作生成能力上同样进入第一梯队。论文提到,它在 RoboTwin 50-task dual-arm benchmark 上取得 93.5% 平均成功率,其中 31 个任务成功率超过 95%,15 个任务达到 100%。
这意味着,它不仅“会想”,而且真的“能干”。

过去行业比的是:
谁参数更大;
谁视频更逼真;
谁动作成功率更高。
但未来真正决定上限的,很可能是谁更接近真实世界。从这个角度来看,Pelican-Unify 1.0 的意义,其实已经不仅仅是“又一个世界第一”。它真正验证的是:具身智能的下一阶段,也许真的会从“模块拼装”,进入“统一大脑时代”。
未来的人形机器人竞争,可能不再只是:
谁的机械臂更灵活;
谁的运动控制更稳定;
谁的硬件更强。
而是谁先拥有:一个真正能够“看见、思考、预演、行动”的统一大脑。
最后,未来的人形机器人竞争,也许不再只是“谁的机械臂更灵活”,而是谁先拥有一个真正能够“看见、思考、预演、行动”的统一大脑。