lch
发布于 2026-05-28 / 0 阅读
0

深度|不经后训练照样能打,这家中国公司的开源具身预训练模型如何做到?

图片

01 机器人能力,能不能在预训练阶段“长”出来?

过去两年,几乎所有具身智能公司都在讲“大模型”。从 OpenVLA 到 π 系列,从 Google DeepMind 到 Figure、Physical Intelligence,行业几乎默认接受了一套叙事:机器人会像语言模型一样,进入“预训练时代”。

但一个真正关键的问题,其实一直很少被公开点破。今天几乎所有 VLA(Vision-Language-Action)模型的高光时刻,往往都发生在:针对具体任务微调之后,加入任务数据之后,或者经过强化学习和动作适配之后。换句话说,行业真正被验证的,其实并不是“预训练本身”,而是“预训练 + 大量后训练工程”。

这也导致一个更底层的问题始终没有被真正回答:机器人预训练,到底有没有意义?或者更尖锐一点——一个机器人模型,如果不做任务微调,能不能直接部署到真实机器人上干活?

这个问题之所以重要,是因为它关乎着整个具身智能行业未来的技术方向。如果机器人必须依赖任务级微调,那么今天所谓的“通用机器人模型”,本质上仍然只是“更大的任务适配器”。每增加一个新场景,就意味着重新采集数据、重新调动作、重新做后训练。

自变量机器人最新开源的 Wall-OSS-0.5,第一次试图正面回答这个问题:它不是把“预训练 checkpoint”当作微调初始化,而是直接把预训练后的模型部署到真实机器人上进行评估。

Wall-OSS-0.5 是一个基于“部署导向(deployment-oriented)”标准构建的开源 VLA 模型。这里的“部署导向”,核心其实只有一句话:模型不是为了 benchmark 分数存在,而是为了真正上机器人。

因此,它评估的重点,也不再是传统 VLA 常见的离线成功率,而是模型在真实机器人环境中的零样本执行能力。

结果比预期更惊喜。在基于自变量自研的机器人本体的17 个真实机器人零样本任务中,Wall-OSS-0.5 已经展现出了可执行、可迁移、可复用的操作能力。更重要的是,这种零样本泛化能力,恰恰是当前绝大多数开源 VLA 最难真正做到的部分。因为过去很多模型所谓的“泛化”,本质上仍然建立在任务分布高度接近的前提下。一旦更换机械臂、改变场景布局、替换操作对象,模型往往就会迅速失效。

在十余个真实机器人任务的公平对比中——包括相同数据、相同微调预算、相同评测标准——Wall-OSS-0.5 在操作类任务与推理类任务上,均领先 π0.5 等同类开源模型,其中操作类任务的优势尤其明显。

而真正值得行业关注的,其实并不只是这组结果本身。更重要的问题是:为什么 Wall-OSS-0.5 能做到?机器人能力,究竟能不能在预训练阶段就“长”出来?

02 VLA 一直困在“后训练依赖”,这个模型终于打破了魔咒

过去几年,大模型最重要的一条经验来自语言领域。GPT 系列之所以真正改变 AI 行业,并不只是因为参数更大,而是因为行业第一次验证了一件事:预训练本身,就能够产生能力。视觉领域也类似,从 CLIP 到 GPT-4V,再到如今多模态模型的发展路径,本质上都建立在同一种逻辑之上:即便没有针对具体任务进行微调,模型本身已经具备了可观察、可理解、可迁移的能力。

于是 AI 行业逐渐形成了一种共识:预训练决定能力上限。但这个逻辑,在机器人领域却始终没有真正成立。今天主流 VLA 的核心问题在于:模型虽然继承了 VLM 的视觉语言能力,但“动作能力”却并没有真正进入 backbone。也就是说,模型会“看”、会“理解”、会“描述”,但并不会天然地产生稳定、统一、可泛化的机器人行为。

所以,机器人行业虽然也在讲 foundation model,但它和 GPT 所代表的“基础模型范式”,其实仍然存在本质差异。因为大部分机器人模型真正依赖的,依然是后训练。

这个断层,几乎贯穿了当前整个 VLA 技术体系。今天大多数机器人模型,本质上仍然是“两套系统”:VLM 主干负责“看”和“理解”;动作模块负责“执行”。两者长期处于割裂状态。

于是行业里大量所谓的“机器人 foundation model”,本质上更像是:“视觉语言模型 + 动作外挂模块”。动作能力并没有真正成为模型内部统一表征的一部分,而更像是后期通过额外训练“接”上去的能力层。

这也是为什么,很多机器人模型在 demo 中看起来非常惊艳,但一旦真正进入开放环境,问题就会迅速暴露。换一个任务,需要重新微调、重新采集数据、需要重新适配动作;甚至更换机械臂之后,模型能力都可能出现明显衰减。

这也导致机器人在落地过程中的一些难题始终难以攻克,比如泛化能力始终有限; 数据效率很低;真实机器人部署成本极高; 模型很难真正规模化复制。这也意味着,机器人行业虽然表面上进入了“大模型时代”,但底层训练逻辑,其实仍然停留在“任务工程时代”。

在这种现状之下,行业必须开始重新思考:什么才是真正意义上的机器人基础模型?

Wall-OSS-0.5 的实践可以让我们管中窥豹,揭开关键的一种答案可能——一个真正可信的机器人基础模型,至少应该满足三个条件:

  • 预训练之后,模型本身就应该直接具备操作能力;

  • 动作训练之后,模型原有的 VLM 能力不能崩;

  • 预训练必须成为更强的先验。

也就是说,模型需要通过大规模预训练,真正学到关于物理世界、空间关系、动作逻辑以及交互规律的统一认知,而不是仅仅记忆任务轨迹。

Wall-OSS-0.5 的意义就在这里。这个来自中国团队开源的模型,让我们看到了一次新的技术突破。它不是在做 benchmark,而是在做 deployment-oriented pretraining。本质上,这是在重新定义“机器人基础模型”。

过去行业默认,预训练只是 feature extractor,真正的能力来自后训练。但 Wall-OSS-0.5 证明了:预训练本身,就应该是机器人能力。如果这个方向成立,那么机器人领域的训练逻辑,可能会像 GPT 时代的大模型一样发生根本变化:从“任务工程”,逐渐走向真正的 foundation model。

03  动作、语义与系统:Wall-OSS-0.5 的系统工程之路

要让机器人真正具备“预训练后的零样本泛化能力”,关键并不只是模型规模更大。如果把 Wall-OSS-0.5 的整套技术路线压缩成一句话,其实就是:让动作能力,第一次真正进入 foundation model 的 backbone。

但这件事远比“加入动作监督”复杂得多。因为这里面其实涉及几个更深层的问题:动作应该以什么形式进入模型?连续控制如何与语言 token 统一?视觉、语言、动作三路监督如何避免互相干扰?大规模协同训练是否真的能够稳定跑通?

Wall-OSS-0.5 的整套技术设计,本质上都围绕这些问题展开。它真正想做的,不是给机器人外挂一个动作模块,而是让“看、理解、行动”第一次进入统一表征空间。

Wall-OSS-0.5 的关键技术尝试的第一层在于:它让动作监督直接进入 backbone。其核心逻辑是:把动作转化成类似语言 token 的形式,与文本共同进入统一序列训练。“看、理解、行动”开始进入统一表征空间。这本质完全打破了过去主流 VLA 的分层的训练逻辑——VLM backbone 学视觉语言; action head 学动作。

实验结果显示:一旦移除这部分“动作进入 backbone”的设计,真实机器人任务成功率会明显下降。而且模型越大,退化越明显。这也反向证明:真正重要的,不是外挂动作模块,而是 backbone 是否真正学会动作。

但即便动作进入 backbone,还有另一个更深的问题。动作 token 本身,到底有没有“语义”?

过去很多机器人系统虽然也会对动作进行 tokenization,但本质上仍然只是数值压缩。模型学到的,其实更像是:“某个编号对应某段控制轨迹”。而不是:“这个动作会让世界发生什么变化”。这两者之间,其实存在巨大 gap。因为机器人真正需要学习的,并不是动作编号,而是动作与物理世界之间的因果关系。

Wall-OSS-0.5 的一个关键设计,就是让动作 token 与视觉变化建立绑定。模型不仅学习:做了什么动作。还同时学习: 这个动作会让环境如何变化。于是动作 token 开始第一次真正拥有类似语言 token 的语义。动作、视觉、语言,也开始进入统一语义空间。这件事其实非常接近 GPT 系列真正重要的一点:token 不只是压缩单位,而是知识与世界状态的表征单位。

论文中的对照实验也说明了这一点。仅替换动作 tokenizer,真实机器人任务成功率与 VQA 能力都会同步提升。这意味着模型学到的已经不只是动作压缩。而是真正的动作语义。

这两个难题解决了,下一个更实际的问题随之浮现:这些带语义的离散表征,如何映射成真实机器人所需的连续动作?

和语言模型天然处理离散 token不同,机器人控制本质上是连续轨迹生成。虽然过去很多方法会使用 flow matching 去学习动作轨迹。但问题在于:传统 flow matching 更关注轨迹细节拟合,而不是真正决定任务是否成功的动作结构。于是模型很容易陷入一种“运动很像,但任务失败”的状态。比如机械臂轨迹非常平滑,但抓取点偏了;或者动作连续性很好,但最终无法完成任务。

Wall-OSS-0.5 的核心思路是重新调整了 flow matching 的监督目标。重点不再是拟合高频运动噪声。而是强化:真正决定任务完成的动作结构。它不是单纯在优化数学意义上的轨迹拟合。而是在让连续动作生成,更贴近真实机器人任务目标。这其实代表着一个非常重要的变化:机器人模型的优化目标,开始从“轨迹像不像”,转向“任务能不能完成”。

但前面这些设计虽然有效,也会带来新的工程挑战。因为一旦视觉、语言、动作同时进入 backbone,整个训练系统会迅速变得极其复杂。

比如:多路监督同时训练;不同模块梯度尺度差异巨大;backbone 与 action head 优化目标不一致;动作学习很容易覆盖原有 VLM 能力。而这些问题,在大模型阶段会被进一步放大。很多机器人模型并不是没有想过统一训练。而是真正进入大规模阶段之后,很难稳定训练下去。

Wall-OSS-0.5 的思路是做系统级训练优化,来进行关键突破。团队围绕大规模协同训练做了大量底层设计。核心目标只有一个:让视觉、语言、动作三种能力能够稳定共同训练,而不是互相冲突。这背后其实已经不仅仅是“模型设计问题”。而是开始进入 foundation model 时代真正的系统工程问题。

这一点,其实和 GPT 时代的大模型演进非常类似。真正推动 GPT 系列走向超大规模的,除了Transformer,还包括 FlashAttention、DeepSpeed、MoE Infra 等一整套基础设施与训练系统。今天,机器人 foundation model 也正在进入同样的阶段。具身智能的发展,开始从“模型结构竞争”,逐渐进入“系统工程竞争”。而 Wall-OSS-0.5 最核心的变化,并不是某一个单独技术点,而是一个一项复杂的系统工程。

04 我们为什么需要开源?因为通用机器人的破局,绝非任何一家公司能够独力完成

真正惊艳的是我们看到了技术实现带来的结果,Wall-OSS-0.5 的技术报告中显示,在 17 个真实机器人零样本任务中,Wall-OSS-0.5 已经展现出了可执行、可迁移、可复用的操作能力。不过,需要特别说明的是:上述结果是在自变量(即与训练时相同的机器人本体)上完成的。如果迁移到不同本体(如不同形态、自由度或驱动方式的机器人),目前仍需要一定程度的微调才能保持性能。跨本体的通用操作能力仍是未来需要重点突破的方向。

另一个非常关键的信号是:Wall-OSS-0.5 在强化动作能力之后,并没有明显牺牲原有的多模态理解能力。过去很多机器人模型在动作训练后,都会出现视觉理解退化、指令跟随下降、多模态推理能力被“挤掉”的问题。但 Wall-OSS-0.5 的结果表明:动作学习与多模态理解,并不一定是冲突关系。如果训练方式合理,动作能力甚至可能反向增强模型对于物理世界的理解。

通用机器人时代,难由某一家巨头的封闭系统独挑大梁。通用机器人的真正诞生,必然依赖于一个由无数创新企业共同交织、技术平权、高频迭代的开源与协作生态。

过去几年,具身智能行业始终笼罩在一种“复现困境”中:昂贵的技术演示(Demo)层出不穷,但真正的训练路径和工程黑盒却秘而不宣。行业能看到结果,却无法验证过程。

在这样的行业节点上,Wall-OSS-0.5 的策略提供了一种更具破局感的解法。它更重要的一点在于,它交付的不是一个孤立的模型结果,而是一整套可以实践参考借鉴的系统方案。

这次开放的版图里,不仅包含模型权重,还彻底袒露了训练代码、action tokenizer、DMuon 系统优化方案、完整的训练 recipe,以及大量极其珍贵的消融实验与工程细节。对于整个行业和开发者生态而言,这意味着具身智能的探索终于告别盲盒时代。它让外界真正有机会看清,一个工业级的机器人基础模型,究竟是如何被一砖一瓦训练出来的。

对于尚处在拓荒早期的具身模型赛道,这种开放本身,可能比单一 benchmark 分数更重要。至少,它让行业开始有机会在一套更透明、可验证、可共享的基础上继续往前推进。

图片
图片
图片
图片
图片
图片