lch
发布于 2026-05-12 / 0 阅读
0

世界模型,成了具身智能的头号技术叙事

编者按:让 AI 像人类一样思考并行动,曾是科幻小说中的终极幻想。如今,随着通用大模型向物理世界的这一跃,具身智能大脑成为了科技竞争的绝对高地。

但技术的演进绝非一蹴而就的坦途,数据匮乏、泛化难题、甚至每一次微小的幻觉,都是横亘在 Demo 与真实落地之间的鸿沟。

当端到端成为行业热词,当VLA模型不断刷新上限,我们需要冷静的思考:什么才是具身智能大脑的最佳架构?算力与数据的飞轮如何驱动物理智能的涌现?

在这个技术范式转移的前夜,星河频率特别策划“具身智能大脑”系列文章,我们将深入演进中的技术范式,试图穿透技术概念的表面热潮,回归系统与架构的本质思考,记录智能体从有躯体到有智慧的进化历程。

往期文章:《具身智能,是时候跳出“中国先研,国外带火”的怪圈了》

作者 | 毛心如

评测发布不到三个月,第一名易主十次,WorldArena 的榜单见证了一场激烈的排位拉锯战。

这个由清华大学、北京大学、香港大学、普林斯顿大学、中科院等顶尖机构联合推出的评测体系,是目前具身智能世界模型领域的国际权威公开评测标准。

多家公司竞逐的落脚点,都是在 VLA 之后,找寻有关世界模型的新叙事。

事实上,世界模型成为热潮是 行业技术演进与资本押注 的共同选择。

今年年初,英伟达机器人部门负责人 Jim Fan 发布长文,挑明了 VLA 模型缺乏物理因果理解的核心短板,明确表示世界模型是通用机器人的未来。

紧随其后,WorldArena 正式上线,以 16 项细分指标和 3 大真实任务构建严苛评测体系, 成为全球世界模型的试金石 ,也让技术实力比拼有了统一标尺。

资本层面同样十分狂热。

今年 3 月,前 Meta 首席科学家、图灵奖得主杨立昆创立的世界模型公司 AMI,完成 10.3 亿美元种子轮融资,创下欧洲 AI 领域种子轮融资纪录。

国内市场里,极佳视界 1 个月内完成 25 亿元融资 ,成为国内首个世界模型独角兽,生数科技获得由阿里云领投的 B 轮 20 亿元融资

从学术共识到榜单竞技,从巨头布局到资本加码,2026 年的具身智能赛道,世界模型正从辅助工具走向物理世界理解与具身决策的核心引擎。

行业风向也从 2025 年的 VLA 模型,转向理解物理、预测未来的世界模型。

中国公司领跑 WorldArena

从 WorldArena 这个全球竞技场来看,中国玩家俨然从参与者变成了领跑者。

流形空间、生数科技、中科第五纪、极佳视界、星动纪元 等公司都先后完成登顶,并实现对海外巨头谷歌、英伟达的超越。

流形空间是最新杀出来的一匹黑马,其自研的 WorldScape v0.2 在四月底登顶,并拿下了综合感知、物理遵循、轨迹精度三项指标第一。

WorldScape 0.2 的技术核心是通过 MoE(混合专家)架构实现了多专家协同,通过分阶段学习的设计思路,构建了一个兼顾物理真实性与空间准确性的世界模型。

其最大技术优势在于, 以极精简的参数规模实现了极高的推理效能 ,成功将这种强大的世界理解能力转化为高成功率的具身操控策略,打通了从感知、预测到行动的完整技术闭环。

作为宇树 001 号供应商的中科第五纪凭借模型 FlowWAM-FiveAges,拿下总分第二,3D 精度第一的成绩。

虽然具体细节尚在黑盒之中,但从命名来看,该模型较前代在物理空间的动态流动性与因果预测上实现了突破,最终在物理遵循和 3D 精度方面展现出明显优势。

目前位于榜单第三名的是生数科技的 MotuBrain,在细分指标拿下运动质量、流程评分两项第一。

MotuBrain 通过整合此前割裂的世界模型和动作模型,提出并实践世界行动模型这一新范式。

核心在于让单一模型同时具备认知与行动能力,从理解并生成世界迈向行动于世界,从而完成从感知、决策到执行的闭环。

其特点可概括为四个一脑,即 一脑多能、一脑多型、一脑贯通和一脑预见 ,旨在解决机器人无法在开放、动态环境中自主完成多步骤连续任务的最后一道坎。

除了上述三家外, 首个综合得分突破 60 分大关的具身世界模型 GigaWorld-1,来自极佳视界。

在技术架构上,这是一款专为具身场景设计的动作控制世界模型。

它深度继承了其前身 EmbodieDreamer 的核心架构,并进行了两项技术创新:

一是引入了显式的动作建模机制 ,从根本上保证了视频生成过程中的几何一致性

二是创新性地融入了可微分物理引擎 ,以获取精准的物理参数,实现对复杂物理交互过程的真实模拟与严格遵循。

此外,该模型使用了团队积累的 上万小时高质量真实机器人操作视频数据进行训练 ,极大地增强了其在开放场景下的泛化能力。

星动纪元则是榜单中首个实现对谷歌和英伟达双超越的中国企业。

其联合斯坦福 Chelsea Finn(PI 创始人)团队研发的 Ctrl-World 是全球首个可控生成式世界模型,采用动作条件化架构突破了传统世界模型的单视角幻觉、动作控制不精细、长时一致性差三大瓶颈。

其设计思路非常务实:

首先,在训练中嵌入物理引擎约束 ,使模型学习并遵守牛顿力学定律,确保生成的场景和交互在物理上合理。

其次,融合多视图联合与视频预测模型 ,预测 RGB 图像的同时也隐式建模深度图与三维空间结构,从而获得精准的深度感知和空间认知能力。

最后,模型设计紧密贴合机器人实际应用场景 ,如策略评估、动作规划和数据合成。

五家公司的模型各有特色,有的靠物理直觉预演,有的靠 VLA 协同校验,有的靠几何精度堆叠,有的靠因果推理。

但它们都有一个共同点, 那就是不再满足于让 AI 看得像,而是逼着 AI 想得对。

这才是世界模型的真正门槛。

三路玩家齐聚世界模型赛道

随着世界模型的热度上涨,水面下布局的玩家也逐渐显现。无论是大厂还是初创公司,都不约而同地踏入了具身智能的河流。

在工程实践中,世界模型并不是一条路走到黑的技术命题,入局玩家根据技术思路的差异,大体可以分为 3 类,分别是 大厂派、All in 世界模型派以及 VLA+世界模型派。

大厂里,英伟达、谷歌、阿里、腾讯等都在积极布局。

它们的核心优势不在于某条技术路线的激进程度,而在于 算力、场景、数据和工程化能力的厚度。

其中,阿里系的打法最具代表性,它们将 世界模型作为 AI 基础设施中的一块关键拼图来铺设 ,打通模型到落地场景的整条链路。

通义千问团队推出原生多模态视频模型 Wan2.6 ,主打多模态融合与高效落地,支持文本、图像驱动的场景生成,兼顾视觉逼真度与物理一致性。

适配机器人训练、虚拟仿真 等多场景,同时与通义大模型家族深度协同,实现了世界模型与通用 AI 能力的双向赋能。

高德团队推出的 ABot-PhysWorld 是面向物理世界规律预测的视频模型 ,能准确预见物体在复杂交互下的运动轨迹,并保持多步因果逻辑的一致性。

在 WorldArena 的评测中,ABot-PhysWorld 在视觉质量获得了单项第一。

蚂蚁灵波则走出了一条 强调开源生态的路径 ,其推出的两款世界模型各有侧重。

LingBot-VLA 是面向具身智能的基座模型,实现了跨本体、跨任务的泛化能力,推动一脑多机走向规模化落地。

而 LingBot-World 则侧重高精度物理建模,为具身智能、自动驾驶及游戏开发等场景创造高保真、可交互的虚拟训练环境。

另一批玩家选择了更彻底的方式,不把世界模型当作 VLA 的补丁或辅助模块,而是 直接以世界模型为基座,构建面向物理世界的原生智能系统。

它石智航、大晓机器人、千诀科技等玩家是这一阵营的代表。

它石智航在今年发布了 全球首个能干活的通用具身大模型 AWE3.0 ,在亚毫米级精度操作、柔性物体感知控制、长程任务稳定执行、跨场景迁移等方面具备优势。

搭载该模型的机器人 A1 更是以 105 次有效装配成绩 ,创造了机器人在一小时内装配亚毫米级线束最多次数的吉尼斯世界纪录。

大晓机器人则走了另一条路,端侧化。

它发布的开悟 3.0 模型通过多模态理解-生成-预测一体化架构帮助机器理解物理世界因果。

其中,Kairos 3.0-4B 是世界上首个可以在 THOR 端侧平台上实时生成的具身世界模型,视频生成时间与视频时长的比例达到 1:1.5,意味着 模型推演速度基本追平了物理世界的变化

此外,还有一类玩家摒弃单一技术路线的局限, 走 VLA 与世界模型深度融合的道路。

通过两者协同互补,提升机器人的自主决策与执行能力,其中 智元机器人的布局最为系统,也最具有代表性。

今年 4 月, 智元发布了 Genie Envisioner 2.0,一个真正意义上的可交互世界模型。

它不只是一个生成模型,而是一个 可以被使用的系统 ,即能够严格响应机器人动作信号,生成高保真的环境变化,并严格遵循物理与语义逻辑。

此前,智元已经搭建了 一套三层协同的世界模型思路

EnerVerse-AC 动作生成层 ,负责将高层指令转化为具体可执行的机器人动作,确保动作的精准性与连贯性。

Genie Envisioner 虚拟建模层 ,作为世界模型的核心,负责构建高保真、物理一致的虚拟场景,模拟环境变化与动作反馈,为 VLA 训练提供高质量虚拟数据。

Act2Goal 自主执行层 ,实现动作生成、场景模拟与自主决策的闭环,让机器人能够根据虚拟场景推演,自主调整动作策略,大幅提升陌生任务的成功率。

这三层形成闭环协同,让世界模型的物理推演能力与 VLA 的实时执行能力深度结合,有效缩减了单一技术路线的短板。

总体来看,三类玩家虽然路径不同,但目标一致, 让世界模型从生成画面走向理解并干预物理世界。

大厂靠技术厚度构建底座,All in 派用范式变革押注未来,融合派则在工程中寻找最优解,这三条河流,正在共同汇入具身智能的深海。

世界模型必然会迎来价值重构

事实上,行业对世界模型尚无统一定义,不同团队基于对认知的不同理解,走出了三条截然不同的技术路线:

以谷歌 Genie 为代表,用 视频生成的方式去重建世界

以李飞飞 WorldLabs 为代表,以 3D 空间生成的方式去显式建模世界

以杨立昆 JEPA 为代表,让 AI 直接去学习世界的抽象结构

从实际应用来看,世界模型更多时候像辅助角色,核心作用是 赋能 VLA 模型、降低数据成本、提升任务鲁棒性。

从核心价值看,当前世界模型 首要作用是理解物理世界、预测未来状态,弥补 VLA 模型缺乏因果推理的短板。

世界模型可以通过学习物理规律,构建虚拟内部世界,预测动作结果与环境变化,为 VLA 提供提前预判能力,提升复杂场景适应性。

其次是数据增效,破解 VLA 的数据饥渴。

VLA 模型训练依赖昂贵稀缺的真机数据,世界模型可以生成高保真合成数据,覆盖长尾场景与极端情况。

像极佳视界 GigaBrain-0.5M * 预训练数据中,有 61% 都由自研世界模型 GigaWorld 合成,极大地降低了对真机数据的依赖。

最后是提升长时程任务鲁棒性。

VLA 模型在多步骤、长时序任务中易出现动作漂移、步骤失误,世界模型通过全程预测环境演变,实时修正动作偏差,确保任务连贯完成。

像智元机器人的 Act2Goal 通过虚拟推演全流程,机器人不仅能自主完成训练域内的任务,也能够完成未见过的任务,最终真正理解任务的操作过程,提高陌生长时序任务中的操作成功率。

那么,未来世界模型会走向何方?这个话题,今年一直有两种大热声音。

一派是以 Jim Fan 为首的替代论。

年初,英伟达团队搭建的 DreamZero 通过自回归 Transformer 与真实观测注入技术,使机器人实现了 跨任务、跨环境、跨具身的零样本/小样本泛化能力。

相比传统 VLA 模型,DreamZero 能更好地理解物理世界,支持实时闭环控制,并在真实机器人实验中展现出显著的泛化性提升。

以美国公司 Genelist 为代表的公司更支持 融合观,即世界模型和 VLA 不是 A or B 的问题,而是 A and B 的问题。

从逻辑上看,VLA 不会消失,而是能力内化、角色转变。

VLA 的核心优势在于语义理解、实时动作执行、端侧高效推理,是世界模型短期内难以完全替代的。

未来的技术范式 或许会是世界模型作为核心大脑 ,负责全局规划、物理推演、未来预测, VLA 作为感知-执行组件 ,负责实时理解环境、解析语言指令、执行精细动作。

两者深度融合、协同迭代,世界模型生成虚拟数据训练 VLA,提升其泛化能力,VLA 的真实交互反馈优化世界模型,提升其物理保真度,形成闭环进化。

从中长期发展趋势来看,世界模型的演变将踏上三个台阶:

短期内,世界模型会继续在物理数据生成与长时程任务模拟中扮演关键的辅助角色。

中期内,随着控制延迟优化和物理推演精度的持续提升, VLA 与世界模型的功能边界将趋于模糊 ,形成紧密交互的具身原生智能网络。

远期来看,业界很可能不再需要单独区分 VLA 与世界模型 ,设计者将会直接从底层构造一个能同时理解物理世界、执行语音推理、并且做到高精度力反馈控制的整体式智能体。

2026 年的世界模型热潮,并不是单纯的行业跟风,而是具身智能从感知模仿向认知理解跨越的必然结果,也是技术、资本、市场共同推动的必然结果。

而世界模型的终局,是让机器人真正理解物理世界、具备自主智能。

原文标题 : 世界模型,成了具身智能的头号技术叙事