“机器人幼儿园”五年计划启动！他山科技与强化学习之父要验证什么？

2026年5月11日，加拿大埃德蒙顿，他山科技CEO马扬与图灵奖得主、强化学习奠基人理查德·萨顿（Richard Sutton）正式签署战略合作协议，共同启动“机器人幼儿园”项目。

这是萨顿2023年创办非营利研究机构Openmind Global Research后，在具身智能领域落地的首个系统性合作计划。双方初步规划该项目定性为研发平台，合作周期为五年，研究成果将逐步向行业开放。

“机器人幼儿园”这一名称不是比喻，而是对功能的直接描述：在一个物理空间内，部署多台具身本体，在真实环境与仿真环境的混合条件下，持续产生可记录、可分析的交互经验。其目标，是为具身智能提供从被动模仿向主动生成学习方法过渡的训练条件。

01.

具身机器人的天花板：它只会模仿，不会思考

要理解这次合作试图解决的问题，需要先理解当前具身智能训练的根本困境。

当前具身智能的主流训练方式，更像是一种人类模仿教育：工程师预先设定任务路径，系统照着执行，遇到路径外的情况就失效。

更深层的问题在于：具身机器人并不知道自己做的事情是成功的还是失败的。马扬用了一个类比：就像家里0到2岁的婴儿，模仿大人做了一个动作，大家鼓掌，他也很开心，但他并不知道这个动作意味着什么。当前绝大多数训练方式，都在以人的思维方式、人设定好的对错标准去驱动系统，系统学到的是“成功路径”，而不是“为什么这样做会有效”。这条路的天花板，就是人本身。

他山科技TS-V视触融合训练平台

他山科技目前使用的训练路径，马扬称之为“冷启动”（Cold Start）：先用模仿学习加仿真训练，给系统提供大量数据，建立初步的任务执行能力。这套方法有价值，也可以满足部分商业项目需求。但马扬把这个阶段的成果比作“60分”——不是满分，但具备基本能力。但冷启动的边界是清晰的：如果具身一直在做对人的简单模仿，它的天花板就是人；如果用人的想象力限制它，它就会被锁死在那里。

问题因此转向：怎么换挡？怎么从被动教育，过渡到让具身能够自己启蒙、自己生成学习方法的模式？换挡的目标是具体的，让具身在执行任务之前能够自己想象完成过程，在执行中试错，在不断自我验证的循环中形成属于自身的方法论，而不是由人预先设定好所有路径再让系统照着执行。

02.

触觉能否改写机器人的未来？

这个换挡，需要一个底层基础：触觉。触觉之所以是换挡的关键，在于具身要自己生成方法论，前提是必须与物理世界发生真实交互。而触觉，正是这种真实交互得以发生的唯一通路。

马扬在访谈中被问到一个问题：如果人只能选一种感知，会选什么？他的回答是，在幼年启蒙阶段，会选触觉。原因在于，人的经验产生，并不是靠坐在那里看或想象，而是通过与客观世界的交互实践来产生的。而与物理世界交互，改变物体在物理空间中的位置，核心依赖的就是触觉。看一个东西、听一个东西，不会改变它在物理世界里的位置；但凡要改变，就要通过触觉来完成。

他山对触觉的定位，从一开始就不是把它当作独立的感知单元，而是理解为整个决策链路的一部分。马扬用“拿水瓶”来解释：人在拿水瓶时，眼睛先确定位置，但手一旦接触到瓶身，人就不再盯着看了。从接触那一刻开始，触觉接管了整个执行过程，手指逐个碰到瓶身，感知是否稳，哪边不稳就在哪边加力，整个过程不需要回到大脑重新计算。大脑负责整体规划，手端一旦建立接触，触觉就在局部完成感知—决策—调整的闭环。

他山科技TS-V视触融合训练平台

这个理解直接决定了硬件设计取向。马扬的判断是：人的手指并不精确感知自己施了多少牛的力，但人能解决问题。触觉模组需要复现的，是这种特性，而不是单纯追求精度的极限。因此他山将重点转向测量的重复性和稳定性，以及时间密度，即单位时间内能完成多少次有效的感知与决策循环。同时，鲁棒性是另一个核心工程挑战：人手指长茧，本质上是为了应对耐久性问题，在任何环境下持续工作不产生损坏。触觉模组面临同样的挑战，换了环境、产生磨损之后，信号不能出现漂移。解决这个方向上的问题，是他山在产品设计上重点投入的工作，也是他山认为真正下场之后最重要的工程问题。

萨顿在参观搭载他山触觉解决方案的灵巧手演示后说：“我原以为，这么高精度的触觉感知技术至少还要5年才能落地。“他的判断是，触觉感知是机器人持续学习的基础，基于触觉的持续学习会彻底改写机器人的未来。这个评价指向的不只是硬件本身，而是他山试图解决的那个更大的问题：让具身在执行过程中，真正形成自己的感知—决策闭环，而不是依赖人预先设定好的每一步。

03.

强化学习的经验时代--用真实交互超越人类知识边界

萨顿的核心贡献,不只是一套数学框架,而是一种关于智能本质的判断:真正的智能,不是对已有知识的复现,而是通过与环境的持续交互,在奖励与惩罚的驱动下，主动生成对世界的理解。

图灵奖得主理查德·萨顿

他明确指出，以RLHF为代表的“人类数据驱动”范式虽然实现了行为广度的飞跃，但同时给智能体设定了一个隐性上限：它无法超越人类已有的知识边界。未来AI真正的转折点，在于从“人类数据时代”跨入“经验时代”，让智能体通过与环境的持续交互自主产生数据，在奖励机制驱动下，生成超越人类预设的行为与认知能力。

在签约仪式上，萨顿进一步阐述了这一理念背后的现实意义：

“我们正在探索一个非常引人注目的假设，即与世界的互动、从经验中学习，尤其是通过机器人与物理世界的互动，获得丰富的反馈和细致的交流，是实现人工智能的关键。我认为，我们有很大的机会真正理解人类的思维，并通过技术重新创造它。这就是人工智能的梦想。"

“早在我们读研究生的时候，有些教授就提出：我们应该制造一个像婴儿一样的机器人，让它能与世界互动并通过经验成长。这个想法当时常被讨论，但几乎不可能实现。而到了现代,我们有了足够的计算能力，也有了足够多与机器人和硬件打交道的经验。”

触觉正是这个闭环中的核心。它既是机器人改变物理世界的唯一通道，也是强化学习得以真正运转的奖励来源。而这条路径的工程化落地，指向一个具体问题：机器人需要一个真实的场所，持续执行交互、积累经验。理论和硬件都已就位，缺少的是让它们协同运转的训练环境。

这个地方，就是“机器人幼儿园”。

04.

他山和萨顿要共建一所“机器人幼儿园”，让具身自想自学

有了触觉作为交互闭环的底层基础，“机器人幼儿园"的训练路径才得以成立。这个训练场所的核心设计是：在高度拟真的园区内布置工具、食物、植物等真实物品，让多台具身本体自由穿梭、主动探索，通过真实与仿真环境的结合，持续积累可记录、可分析的交互数据。未来甚至计划让其进入园区商店买东西、帮人拿东西，与真实世界产生直接交互。碰撞与失败在所难免，而这个过程，正是经验积累的核心来源。

签约仪式现场

多台具身共同训练的设计，有一个来自实际观察的直接依据。马扬在访谈中提到，他山在训练过程中，曾出现一台具身在关一扇较重的门时关不上，自发“叫来”另一台具身帮忙按住门，自己再去扣上门扣的情况。这件事让马扬感到兴奋，具身在没有人为设定的情况下，自主产生了协作行为。萨顿听到这个案例后，联想到AlphaGo自我对弈的逻辑：两个智能体之间相互博弈、相互促进，正是因为每个本体都存在“不想输”的内在驱动力。多台具身共同训练，本质上是在复现这种机制，用本体之间的交互，替代人为设定的奖励信号。

在与萨顿的讨论中，马扬反复强调的核心观点是：要让机器人能够去做自主的学习。

“模仿学习也好，包括人去遥操的一些数据也是非常重要的一部分，但是最终能够推动机器去真正实现能够去干活、能够去有效地走到产业化，一定是他通过自主学习来完成。”马扬说，“这一点对萨顿是非常有吸引力的。”

萨顿在近期的研究中也在强调，要让机器人实现这种自主经验的学习。双方在这个观点上不谋而合。

马扬进一步解释了这种自主学习的本质：“对于具身来讲，最重要最核心的，就是能想象到一个我要去做这件事情的一个过程，然后我去测试、去实习、去做，然后在这个过程中推导出一个结论，在不断的自己的想象来去验证的这个过程中，形成对于自身的方法论。”

他用了一个类比来说明这个过程：“像幼儿园到小学阶段，老师会介入给你一些指导，但你自己真正能学习这个东西的过程，其实是出于你自己自发的一个驱动力来完成的——自己能制定目标，预演过程，预判结果，这就是我们说人有想象力。”

对于具身来说，这意味着它要具备一定的想象能力，要自己去想“我的这个任务的完成的过程是怎么样的”，然后在完成的过程中去试错，而不是由人给它设定好所有的操作模式及路径轨迹。

萨顿认为，现在更多的是给机器人创造一个环境，让它能够去完成“正确的事情”。但真正能够给机器人带来训练的，反而是它自己在探索过程中更多的错误的事情。

马扬对此深表认同：“最终机器人要能够真实地干活，一定是他通过不断的试错来去划定自己的边界。”

在这件事情上，双方的看法非常一致：让机器人在真实环境中积极交互，在人机交互的过程中，能够从自身的经验中学习。

05.

数十台机器人、异构本体、跨物种迁移：当底层逻辑跨越本体形态

让机器人自主学习解决的是单一本体内的能力生成问题。但行业还面临另一个结构性障碍，即不同本体之间，训练逻辑如何迁移？

当前行业里普遍存在硬件孤岛问题：不同厂商的本体结构不同，训练方法不同，同一套训练逻辑迁移到不同本体上，成本很高。在与萨顿讨论之前，他山今年的工作重心，是尝试在数据到本体的迁移上同时解决泛化性与数据质量两个问题。

他山科技触觉感知方案自适应抓取精准完成抓取-移送-递交

具体思路是：两指夹爪的训练用两指夹爪的数据，五指手的训练用五指手的数据，不同本体需要对应形态的经验积累。马扬判断，这个思路在未来一到两年内依然是行业主流。但这条路有一个内在的限制：它预设了本体形态决定训练数据的边界，不同形态之间的迁移成本始终存在。

与萨顿沟通之后，马扬对这个问题有了新的思考角度。如果具身能够自己生成底层的交互逻辑，本体异构就不再是数据迁移的障碍，此时的模型是一个元方法（Meta method），不同本体基于这个元方法去拓展就可以了。

马扬再次用“拿水瓶”来解释这个逻辑：人在拿水瓶时，有几根手指、手有多少自由度，不是核心变量。核心是底层的交互逻辑，如何从接触出发，通过持续反馈完成任务。正是因为这套底层逻辑的存在，人换了手套、少了一只手，试错成本依然很低，因为大脑能自己解构任务，再用当前的本体去验证。

这套逻辑的迁移能力甚至跨越了物种边界，狗或猫看到人拿起一个东西，能很快理解这个动作的意思，并尝试用自己完全不同的本体去完成类似的事。这个现象指向一个原理：当底层交互逻辑足够稳定，迁移能力就不再被本体形态所限定。

前者（人换手套仍能完成任务）说明执行层面的底层逻辑与本体无关；后者（跨物种理解与模仿）说明学习层面的迁移能力同样与本体结构关系不大。两个例子从不同角度指向同一个结论：智能体的能力边界，并不由本体形态来划定，前提是，这套底层逻辑已经形成。

在这个逻辑尚未形成之前，本体的简单性仍然重要，变量越少，早期的经验积累越清晰。因此幼儿园初期计划中，大部分本体会采用统一规格，目的是控制变量。初步计划在训练环境中放置约数十台具身本体，其中较大部分为统一规格，同时欢迎上下游合作方的异构本体接入，在同一环境内共同参与训练。

06.

结语与未来：

马扬在访谈中也进一步明确了这件事的边界：“我们不是要在这里建一个封闭的研究院，我们现在做的是对于具身的一种启蒙，而在这个过程中，谁掌握了一个更好的教育方法，谁就能比别人走得更快一些。但方法论本身，不可能构成什么特别明确的壁垒。"

他山科技CEO马扬

在他看来，这件事的价值不在于独占，而在于能否被放大：“如果做出来的东西真正有效，推开来形成行业标准，比锁起来的意义要大得多。这是他山将研究成果尽可能开放的根本原因。”

基于这一理念，他山科技正式面向全行业发起“机器人幼儿园”生态共建计划，广泛招募合作伙伴，无论是机器人整机企业、具身智能研发团队、高校科研院所，还是核心零部件厂商、算法与数据服务商、行业应用方，都是这个平台希望接入的力量。他山的判断是：这件事靠一家公司做不完，也不应该由一家公司独占，打通技术、数据、场景与人才的协同链路，才能让“机器人幼儿园”真正成为行业级的基础设施。

如果“机器人幼儿园”最终能沉淀出一套通用训练范式，受益的就不只是他山一家。触觉数据的采集标准、多阶段学习的课程设计、跨场景迁移的评估方法，这些一旦开放，就能让后来者在物理世界训练具身智能的门槛系统性降低。这才是他山所说“行业级基础设施”的真实含义。

马扬最后说：“这件事还没有做完，很多问题我现在也没有完全想清楚。但我们在做，在试，在开放地讨论，这件事本来就没有标准答案，边做边想，反而是最诚实的方式。”

END

工业机器人企业

服务与特种机器人企业

人形机器人企业

具身智能企业

医疗机器人企业

上游产业链企业

菜单

分享

“机器人幼儿园”五年计划启动！他山科技与强化学习之父要验证什么？

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业