从“猜”到“算”，中国首个流形拓扑保持机器人世界模型发布

你见过机器人在实验室里行云流水地倒咖啡。你也见过它在陌生环境里，突然就不知道该迈哪条腿。

今天的大多数机器人能“看见”，但不太能“理解”。它看到的是一帧一帧的像素，不是连续的物理空间。光线变一下，背景换一下，它就可能认不出同一个杯子。

这不是硬件的问题。传感器越来越精密，算力越来越强。真正拖后腿的，是大脑。传统AI模型给了机器人一双像素眼，却没给它一个理解物理世界的脑子。

01.

行业痛点：为何传统AI模型让机器人“不那么靠谱”？

传统生成式架构的具身智能模型（如VLA）存在一定程度的“模型幻觉-Model Hallucination”。同一个场景，它两次判断可能不一样。大语言模型聊天时答案不一致，顶多让人多问一遍；机器人抓取或避障时判断不一致，就是安全事故。

根源在于，这类模型不理解物理规律，换环境就失效，泛化能力差。使用这类模型处理机器人任务时，无法有效保障人、机器、环境的安全，这成为业界痛点。

这个矛盾正在被一项关键技术打破：世界模型。而最新的突破，来自成都。

02.

破局之道：不是“猜”未来，而是“算”未来

生成式模型的工作方式，是“猜”一个未来画面。世界模型的工作方式，是“算”一个未来状态，给它当前状态和机器人的动作，它推演出必然的结果。猜，带有随机性。算，结果是确定的。

确定性，就意味着可靠性。可靠性，才谈得上泛化能力。所以业内普遍认为，世界模型是具备对物理世界的理解和预测能力，是人形机器人技术收敛的最大可能方向。

成都人形机器人创新中心是国内最早扎进这个方向的团队。2025年8月，他们发布了中国首个基于世界模型的机器人任务执行系统（R-WMES）。

而现在，他们拿出了更深层的突破：中国首个基于流形拓扑保持的机器人世界模型Manifold Topology-Preserving Based Robot World Model（MTPR-WM），旨在为机器人构建一个能深刻理解物理世界连接、空间与规则的高效“大脑”，使其摆脱传统AI模型的“像素化”感知局限，首次获得接近人类的“空间直觉”与物理推理能力，从而在复杂动态环境中实现快速、安全、可靠的决策与行动。

03.

技术突破：给机器人大脑装一张“拓扑地图”

“流形拓扑保持”，听起来拗口，核心思想其实很优雅。

机器人面对的现实世界，是高维的、非线性的、复杂到爆炸的。传统做法是把摄像头看到的东西打散成一堆离散的特征点，这就像把一张地图撕成碎片，然后让你靠碎片认路。物理空间的连续性，被粗暴地切断了。而流形，指的是在整体高维非线性的空间的局部类似平直化、整体可弯曲的光滑空间。

正是通过流形，MTPR-WM实现了对高维物理世界的状态描述映射到低维空间进行有效编码，实现机器人在隐空间（Latent Space）规划中符合自然界物理规律，不会出现 VLA 这类架构导致的物理碰撞、穿越、重叠等不符合自然规律的问题。

换句话说，它找出了隐藏在高维混乱背后的低维规律，把整个物理场景“揉”进一个连续、光滑的低维空间里。在这个空间里，现实中连着的，依然连着；现实中被墙壁隔开的，也永远隔着一道坎。拓扑结构，完整保留。

这张拓扑地图一旦建立，机器人的“思考方式”就彻底变了。具体体现在四个层面：

1. 建立“空间直觉”：构建连续、有逻辑的思维地图

基于流形拓扑保持的世界模型，核心在于通过编码器，寻找隐藏在高维观测背后的低维流形。这种映射本质上追求一种“同胚”效果，即确保物理世界中的每一个位姿、每一处几何连接，在隐空间（Latent Space）内都能找到对应的且保持邻接关系的拓扑点。

这是机器人建立“空间直觉”的第一步，使其大脑中的数字地图不再是孤立的坐标集合，而是一张具备弹性的、逻辑连续的网格。

2. 理解真实“距离”：内化物理规则，杜绝“穿越”

为了让编码空间真正具备指导行动的意义，模型必须在流形内引入严格的度量学习机制。在物理世界中，两点之间的“远近”不仅仅是欧氏距离，更包含绕过障碍物的测地线距离。拓扑保持的世界模型通过对比学习技术，强制要求隐空间（Latent Space）内的表征位移与物理执行相关。

这种度量一致性确保了机器人能直观地感知到：在流形上相距较近的两个编码状态，在现实中仅需微小的动作即可触达；反之，若中间隔有障碍物，即便视觉上靠近，其在流形上的路径也会因拓扑阻隔而变得极其遥远。

3. 感知“物体占据”：让障碍物在思维中成为实体

空间占据关系（Occupancy）是世界模型物理性的基石。在该框架下，场景不再被看作静态的贴图，而是通过隐式神经表示（INR）参数化为流形上的连续场。每一个被物体占据的物理区域，在流形编码中都对应着特定势能屏障。

这种设计使得空间占据变得“可微”，机器人不仅能识别出障碍物的存在，还能感知到物体边界的平滑演变。当环境发生动态变化时，流形上的占据场会随之平滑形变，维持了场景图在逻辑层面的一致性，从根本上杜绝了生成式模型中常见的“物体闪烁”或“穿模”等物理幻觉。

4. 行动前的“思想实验”：在约束曲面上预演未来

该世界模型的精髓在于对未来的预演，而基于流形的表征将动作（Action）定义为流形上的切向量场或算子流（Flow）。当机器人计划执行一个指令时，模型会在流形上模拟状态的演化：（为流形上的动力学矢量场）由于流形结构预先嵌入了物理约束和拓扑规则，预测出的演化轨迹会自然地避开高势能的占据区，并严格遵循关节限位等物理边界。