01 机器人能力，能不能在预训练阶段“长”出来？

过去两年，几乎所有具身智能公司都在讲“大模型”。从 OpenVLA 到 π 系列，从 Google DeepMind 到 Figure、Physical Intelligence，行业几乎默认接受了一套叙事：机器人会像语言模型一样，进入“预训练时代”。

但一个真正关键的问题，其实一直很少被公开点破。今天几乎所有 VLA（Vision-Language-Action）模型的高光时刻，往往都发生在：针对具体任务微调之后，加入任务数据之后，或者经过强化学习和动作适配之后。换句话说，行业真正被验证的，其实并不是“预训练本身”，而是“预训练 + 大量后训练工程”。

这也导致一个更底层的问题始终没有被真正回答：机器人预训练，到底有没有意义？或者更尖锐一点——一个机器人模型，如果不做任务微调，能不能直接部署到真实机器人上干活？

这个问题之所以重要，是因为它关乎着整个具身智能行业未来的技术方向。如果机器人必须依赖任务级微调，那么今天所谓的“通用机器人模型”，本质上仍然只是“更大的任务适配器”。每增加一个新场景，就意味着重新采集数据、重新调动作、重新做后训练。

自变量机器人最新开源的 Wall-OSS-0.5，第一次试图正面回答这个问题：它不是把“预训练 checkpoint”当作微调初始化，而是直接把预训练后的模型部署到真实机器人上进行评估。

Wall-OSS-0.5 是一个基于“部署导向（deployment-oriented）”标准构建的开源 VLA 模型。这里的“部署导向”，核心其实只有一句话：模型不是为了 benchmark 分数存在，而是为了真正上机器人。

因此，它评估的重点，也不再是传统 VLA 常见的离线成功率，而是模型在真实机器人环境中的零样本执行能力。

结果比预期更惊喜。在基于自变量自研的机器人本体的17 个真实机器人零样本任务中，Wall-OSS-0.5 已经展现出了可执行、可迁移、可复用的操作能力。更重要的是，这种零样本泛化能力，恰恰是当前绝大多数开源 VLA 最难真正做到的部分。因为过去很多模型所谓的“泛化”，本质上仍然建立在任务分布高度接近的前提下。一旦更换机械臂、改变场景布局、替换操作对象，模型往往就会迅速失效。

在十余个真实机器人任务的公平对比中——包括相同数据、相同微调预算、相同评测标准——Wall-OSS-0.5 在操作类任务与推理类任务上，均领先 π0.5 等同类开源模型，其中操作类任务的优势尤其明显。

而真正值得行业关注的，其实并不只是这组结果本身。更重要的问题是：为什么 Wall-OSS-0.5 能做到？机器人能力，究竟能不能在预训练阶段就“长”出来？

02 VLA 一直困在“后训练依赖”，这个模型终于打破了魔咒

过去几年，大模型最重要的一条经验来自语言领域。GPT 系列之所以真正改变 AI 行业，并不只是因为参数更大，而是因为行业第一次验证了一件事：预训练本身，就能够产生能力。视觉领域也类似，从 CLIP 到 GPT-4V，再到如今多模态模型的发展路径，本质上都建立在同一种逻辑之上：即便没有针对具体任务进行微调，模型本身已经具备了可观察、可理解、可迁移的能力。

于是 AI 行业逐渐形成了一种共识：预训练决定能力上限。但这个逻辑，在机器人领域却始终没有真正成立。今天主流 VLA 的核心问题在于：模型虽然继承了 VLM 的视觉语言能力，但“动作能力”却并没有真正进入 backbone。也就是说，模型会“看”、会“理解”、会“描述”，但并不会天然地产生稳定、统一、可泛化的机器人行为。

所以，机器人行业虽然也在讲 foundation model，但它和 GPT 所代表的“基础模型范式”，其实仍然存在本质差异。因为大部分机器人模型真正依赖的，依然是后训练。

这个断层，几乎贯穿了当前整个 VLA 技术体系。今天大多数机器人模型，本质上仍然是“两套系统”：VLM 主干负责“看”和“理解”；动作模块负责“执行”。两者长期处于割裂状态。

于是行业里大量所谓的“机器人 foundation model”，本质上更像是：“视觉语言模型 + 动作外挂模块”。动作能力并没有真正成为模型内部统一表征的一部分，而更像是后期通过额外训练“接”上去的能力层。

这也是为什么，很多机器人模型在 demo 中看起来非常惊艳，但一旦真正进入开放环境，问题就会迅速暴露。换一个任务，需要重新微调、重新采集数据、需要重新适配动作；甚至更换机械臂之后，模型能力都可能出现明显衰减。

这也导致机器人在落地过程中的一些难题始终难以攻克，比如泛化能力始终有限；数据效率很低；真实机器人部署成本极高；模型很难真正规模化复制。这也意味着，机器人行业虽然表面上进入了“大模型时代”，但底层训练逻辑，其实仍然停留在“任务工程时代”。

在这种现状之下，行业必须开始重新思考：什么才是真正意义上的机器人基础模型？

Wall-OSS-0.5 的实践可以让我们管中窥豹，揭开关键的一种答案可能——一个真正可信的机器人基础模型，至少应该满足三个条件：

预训练之后，模型本身就应该直接具备操作能力；
动作训练之后，模型原有的 VLM 能力不能崩；
预训练必须成为更强的先验。

也就是说，模型需要通过大规模预训练，真正学到关于物理世界、空间关系、动作逻辑以及交互规律的统一认知，而不是仅仅记忆任务轨迹。

Wall-OSS-0.5 的意义就在这里。这个来自中国团队开源的模型，让我们看到了一次新的技术突破。它不是在做 benchmark，而是在做 deployment-oriented pretraining。本质上，这是在重新定义“机器人基础模型”。

过去行业默认，预训练只是 feature extractor，真正的能力来自后训练。但 Wall-OSS-0.5 证明了：预训练本身，就应该是机器人能力。如果这个方向成立，那么机器人领域的训练逻辑，可能会像 GPT 时代的大模型一样发生根本变化：从“任务工程”，逐渐走向真正的 foundation model。

03 动作、语义与系统：Wall-OSS-0.5 的系统工程之路

要让机器人真正具备“预训练后的零样本泛化能力”，关键并不只是模型规模更大。如果把 Wall-OSS-0.5 的整套技术路线压缩成一句话，其实就是：让动作能力，第一次真正进入 foundation model 的 backbone。

但这件事远比“加入动作监督”复杂得多。因为这里面其实涉及几个更深层的问题：动作应该以什么形式进入模型？连续控制如何与语言 token 统一？视觉、语言、动作三路监督如何避免互相干扰？大规模协同训练是否真的能够稳定跑通？

Wall-OSS-0.5 的整套技术设计，本质上都围绕这些问题展开。它真正想做的，不是给机器人外挂一个动作模块，而是让“看、理解、行动”第一次进入统一表征空间。

Wall-OSS-0.5 的关键技术尝试的第一层在于：它让动作监督直接进入 backbone。其核心逻辑是：把动作转化成类似语言 token 的形式，与文本共同进入统一序列训练。“看、理解、行动”开始进入统一表征空间。这本质完全打破了过去主流 VLA 的分层的训练逻辑——VLM backbone 学视觉语言； action head 学动作。

实验结果显示：一旦移除这部分“动作进入 backbone”的设计，真实机器人任务成功率会明显下降。而且模型越大，退化越明显。这也反向证明：真正重要的，不是外挂动作模块，而是 backbone 是否真正学会动作。

但即便动作进入 backbone，还有另一个更深的问题。动作 token 本身，到底有没有“语义”？

过去很多机器人系统虽然也会对动作进行 tokenization，但本质上仍然只是数值压缩。模型学到的，其实更像是：“某个编号对应某段控制轨迹”。而不是：“这个动作会让世界发生什么变化”。这两者之间，其实存在巨大 gap。因为机器人真正需要学习的，并不是动作编号，而是动作与物理世界之间的因果关系。

Wall-OSS-0.5 的一个关键设计，就是让动作 token 与视觉变化建立绑定。模型不仅学习：做了什么动作。还同时学习：这个动作会让环境如何变化。于是动作 token 开始第一次真正拥有类似语言 token 的语义。动作、视觉、语言，也开始进入统一语义空间。这件事其实非常接近 GPT 系列真正重要的一点：token 不只是压缩单位，而是知识与世界状态的表征单位。

论文中的对照实验也说明了这一点。仅替换动作 tokenizer，真实机器人任务成功率与 VQA 能力都会同步提升。这意味着模型学到的已经不只是动作压缩。而是真正的动作语义。

这两个难题解决了，下一个更实际的问题随之浮现：这些带语义的离散表征，如何映射成真实机器人所需的连续动作？

和语言模型天然处理离散 token不同，机器人控制本质上是连续轨迹生成。虽然过去很多方法会使用 flow matching 去学习动作轨迹。但问题在于：传统 flow matching 更关注轨迹细节拟合，而不是真正决定任务是否成功的动作结构。于是模型很容易陷入一种“运动很像，但任务失败”的状态。比如机械臂轨迹非常平滑，但抓取点偏了；或者动作连续性很好，但最终无法完成任务。

Wall-OSS-0.5 的核心思路是重新调整了 flow matching 的监督目标。重点不再是拟合高频运动噪声。而是强化：真正决定任务完成的动作结构。它不是单纯在优化数学意义上的轨迹拟合。而是在让连续动作生成，更贴近真实机器人任务目标。这其实代表着一个非常重要的变化：机器人模型的优化目标，开始从“轨迹像不像”，转向“任务能不能完成”。

但前面这些设计虽然有效，也会带来新的工程挑战。因为一旦视觉、语言、动作同时进入 backbone，整个训练系统会迅速变得极其复杂。

比如：多路监督同时训练；不同模块梯度尺度差异巨大；backbone 与 action head 优化目标不一致；动作学习很容易覆盖原有 VLM 能力。而这些问题，在大模型阶段会被进一步放大。很多机器人模型并不是没有想过统一训练。而是真正进入大规模阶段之后，很难稳定训练下去。

Wall-OSS-0.5 的思路是做系统级训练优化，来进行关键突破。团队围绕大规模协同训练做了大量底层设计。核心目标只有一个：让视觉、语言、动作三种能力能够稳定共同训练，而不是互相冲突。这背后其实已经不仅仅是“模型设计问题”。而是开始进入 foundation model 时代真正的系统工程问题。

这一点，其实和 GPT 时代的大模型演进非常类似。真正推动 GPT 系列走向超大规模的，除了Transformer，还包括 FlashAttention、DeepSpeed、MoE Infra 等一整套基础设施与训练系统。今天，机器人 foundation model 也正在进入同样的阶段。具身智能的发展，开始从“模型结构竞争”，逐渐进入“系统工程竞争”。而 Wall-OSS-0.5 最核心的变化，并不是某一个单独技术点，而是一个一项复杂的系统工程。

04 我们为什么需要开源？因为通用机器人的破局，绝非任何一家公司能够独力完成

真正惊艳的是我们看到了技术实现带来的结果，Wall-OSS-0.5 的技术报告中显示，在 17 个真实机器人零样本任务中，Wall-OSS-0.5 已经展现出了可执行、可迁移、可复用的操作能力。不过，需要特别说明的是：上述结果是在自变量（即与训练时相同的机器人本体）上完成的。如果迁移到不同本体（如不同形态、自由度或驱动方式的机器人），目前仍需要一定程度的微调才能保持性能。跨本体的通用操作能力仍是未来需要重点突破的方向。

另一个非常关键的信号是：Wall-OSS-0.5 在强化动作能力之后，并没有明显牺牲原有的多模态理解能力。过去很多机器人模型在动作训练后，都会出现视觉理解退化、指令跟随下降、多模态推理能力被“挤掉”的问题。但 Wall-OSS-0.5 的结果表明：动作学习与多模态理解，并不一定是冲突关系。如果训练方式合理，动作能力甚至可能反向增强模型对于物理世界的理解。

通用机器人时代，难由某一家巨头的封闭系统独挑大梁。通用机器人的真正诞生，必然依赖于一个由无数创新企业共同交织、技术平权、高频迭代的开源与协作生态。

过去几年，具身智能行业始终笼罩在一种“复现困境”中：昂贵的技术演示（Demo）层出不穷，但真正的训练路径和工程黑盒却秘而不宣。行业能看到结果，却无法验证过程。

在这样的行业节点上，Wall-OSS-0.5 的策略提供了一种更具破局感的解法。它更重要的一点在于，它交付的不是一个孤立的模型结果，而是一整套可以实践参考借鉴的系统方案。

这次开放的版图里，不仅包含模型权重，还彻底袒露了训练代码、action tokenizer、DMuon 系统优化方案、完整的训练 recipe，以及大量极其珍贵的消融实验与工程细节。对于整个行业和开发者生态而言，这意味着具身智能的探索终于告别盲盒时代。它让外界真正有机会看清，一个工业级的机器人基础模型，究竟是如何被一砖一瓦训练出来的。

对于尚处在拓荒早期的具身模型赛道，这种开放本身，可能比单一 benchmark 分数更重要。至少，它让行业开始有机会在一套更透明、可验证、可共享的基础上继续往前推进。

菜单

分享

深度｜不经后训练照样能打，这家中国公司的开源具身预训练模型如何做到？

01 机器人能力，能不能在预训练阶段“长”出来？

02 VLA 一直困在“后训练依赖”，这个模型终于打破了魔咒

03 动作、语义与系统：Wall-OSS-0.5 的系统工程之路

04 我们为什么需要开源？因为通用机器人的破局，绝非任何一家公司能够独力完成

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业