lch
发布于 2026-05-28 / 0 阅读
0

“机器人幼儿园”五年计划启动!他山科技与强化学习之父要验证什么?


2026年5月11日,加拿大埃德蒙顿,他山科技CEO马扬与图灵奖得主、强化学习奠基人理查德·萨顿(Richard Sutton)正式签署战略合作协议,共同启动“机器人幼儿园”项目



这是萨顿2023年创办非营利研究机构Openmind Global Research后,在具身智能领域落地的首个系统性合作计划。双方初步规划该项目定性为研发平台,合作周期为五年,研究成果将逐步向行业开放。


“机器人幼儿园”这一名称不是比喻,而是对功能的直接描述:在一个物理空间内,部署多台具身本体,在真实环境与仿真环境的混合条件下,持续产生可记录、可分析的交互经验。其目标,是为具身智能提供从被动模仿向主动生成学习方法过渡的训练条件。


01.

具身机器人的天花板:它只会模仿,不会思考


要理解这次合作试图解决的问题,需要先理解当前具身智能训练的根本困境。


当前具身智能的主流训练方式,更像是一种人类模仿教育:工程师预先设定任务路径,系统照着执行,遇到路径外的情况就失效。


更深层的问题在于:具身机器人并不知道自己做的事情是成功的还是失败的。马扬用了一个类比:就像家里0到2岁的婴儿,模仿大人做了一个动作,大家鼓掌,他也很开心,但他并不知道这个动作意味着什么。当前绝大多数训练方式,都在以人的思维方式、人设定好的对错标准去驱动系统,系统学到的是“成功路径”,而不是“为什么这样做会有效”。这条路的天花板,就是人本身。


他山科技TS-V视触融合训练平台


他山科技目前使用的训练路径,马扬称之为“冷启动”(Cold Start):先用模仿学习加仿真训练,给系统提供大量数据,建立初步的任务执行能力。这套方法有价值,也可以满足部分商业项目需求。但马扬把这个阶段的成果比作“60分”——不是满分,但具备基本能力。但冷启动的边界是清晰的:如果具身一直在做对人的简单模仿,它的天花板就是人;如果用人的想象力限制它,它就会被锁死在那里。


问题因此转向:怎么换挡?怎么从被动教育,过渡到让具身能够自己启蒙、自己生成学习方法的模式?换挡的目标是具体的,让具身在执行任务之前能够自己想象完成过程,在执行中试错,在不断自我验证的循环中形成属于自身的方法论,而不是由人预先设定好所有路径再让系统照着执行。


02.

触觉能否改写机器人的未来?


这个换挡,需要一个底层基础:触觉。触觉之所以是换挡的关键,在于具身要自己生成方法论,前提是必须与物理世界发生真实交互。而触觉,正是这种真实交互得以发生的唯一通路。


马扬在访谈中被问到一个问题:如果人只能选一种感知,会选什么?他的回答是,在幼年启蒙阶段,会选触觉。原因在于,人的经验产生,并不是靠坐在那里看或想象,而是通过与客观世界的交互实践来产生的。而与物理世界交互,改变物体在物理空间中的位置,核心依赖的就是触觉。看一个东西、听一个东西,不会改变它在物理世界里的位置;但凡要改变,就要通过触觉来完成。


他山对触觉的定位,从一开始就不是把它当作独立的感知单元,而是理解为整个决策链路的一部分。马扬用“拿水瓶”来解释:人在拿水瓶时,眼睛先确定位置,但手一旦接触到瓶身,人就不再盯着看了。从接触那一刻开始,触觉接管了整个执行过程,手指逐个碰到瓶身,感知是否稳,哪边不稳就在哪边加力,整个过程不需要回到大脑重新计算。大脑负责整体规划,手端一旦建立接触,触觉就在局部完成感知—决策—调整的闭环。


他山科技TS-V视触融合训练平台


这个理解直接决定了硬件设计取向。马扬的判断是:人的手指并不精确感知自己施了多少牛的力,但人能解决问题。触觉模组需要复现的,是这种特性,而不是单纯追求精度的极限。因此他山将重点转向测量的重复性和稳定性,以及时间密度,即单位时间内能完成多少次有效的感知与决策循环。同时,鲁棒性是另一个核心工程挑战:人手指长茧,本质上是为了应对耐久性问题,在任何环境下持续工作不产生损坏。触觉模组面临同样的挑战,换了环境、产生磨损之后,信号不能出现漂移。解决这个方向上的问题,是他山在产品设计上重点投入的工作,也是他山认为真正下场之后最重要的工程问题。


萨顿在参观搭载他山触觉解决方案的灵巧手演示后说:“我原以为,这么高精度的触觉感知技术至少还要5年才能落地。“他的判断是,触觉感知是机器人持续学习的基础,基于触觉的持续学习会彻底改写机器人的未来。这个评价指向的不只是硬件本身,而是他山试图解决的那个更大的问题:让具身在执行过程中,真正形成自己的感知—决策闭环,而不是依赖人预先设定好的每一步。


03.

强化学习的经验时代--用真实交互超越人类知识边界


萨顿的核心贡献,不只是一套数学框架,而是一种关于智能本质的判断:真正的智能,不是对已有知识的复现,而是通过与环境的持续交互,在奖励与惩罚的驱动下,主动生成对世界的理解。


图灵奖得主理查德·萨顿


他明确指出,以RLHF为代表的“人类数据驱动”范式虽然实现了行为广度的飞跃,但同时给智能体设定了一个隐性上限:它无法超越人类已有的知识边界。未来AI真正的转折点,在于从“人类数据时代”跨入“经验时代”,让智能体通过与环境的持续交互自主产生数据,在奖励机制驱动下,生成超越人类预设的行为与认知能力。


在签约仪式上,萨顿进一步阐述了这一理念背后的现实意义:


“我们正在探索一个非常引人注目的假设,即与世界的互动、从经验中学习,尤其是通过机器人与物理世界的互动,获得丰富的反馈和细致的交流,是实现人工智能的关键。我认为,我们有很大的机会真正理解人类的思维,并通过技术重新创造它。这就是人工智能的梦想。"


“早在我们读研究生的时候,有些教授就提出:我们应该制造一个像婴儿一样的机器人,让它能与世界互动并通过经验成长。这个想法当时常被讨论,但几乎不可能实现。而到了现代,我们有了足够的计算能力,也有了足够多与机器人和硬件打交道的经验。”


触觉正是这个闭环中的核心。它既是机器人改变物理世界的唯一通道,也是强化学习得以真正运转的奖励来源。而这条路径的工程化落地,指向一个具体问题:机器人需要一个真实的场所,持续执行交互、积累经验。理论和硬件都已就位,缺少的是让它们协同运转的训练环境。


这个地方,就是“机器人幼儿园”。


04.

他山和萨顿要共建一所“机器人幼儿园”,让具身自想自学


有了触觉作为交互闭环的底层基础,“机器人幼儿园"的训练路径才得以成立。这个训练场所的核心设计是:在高度拟真的园区内布置工具、食物、植物等真实物品,让多台具身本体自由穿梭、主动探索,通过真实与仿真环境的结合,持续积累可记录、可分析的交互数据。未来甚至计划让其进入园区商店买东西、帮人拿东西,与真实世界产生直接交互。碰撞与失败在所难免,而这个过程,正是经验积累的核心来源。


签约仪式现场


多台具身共同训练的设计,有一个来自实际观察的直接依据。马扬在访谈中提到,他山在训练过程中,曾出现一台具身在关一扇较重的门时关不上,自发“叫来”另一台具身帮忙按住门,自己再去扣上门扣的情况。这件事让马扬感到兴奋,具身在没有人为设定的情况下,自主产生了协作行为。萨顿听到这个案例后,联想到AlphaGo自我对弈的逻辑:两个智能体之间相互博弈、相互促进,正是因为每个本体都存在“不想输”的内在驱动力。多台具身共同训练,本质上是在复现这种机制,用本体之间的交互,替代人为设定的奖励信号。


在与萨顿的讨论中,马扬反复强调的核心观点是:要让机器人能够去做自主的学习。


“模仿学习也好,包括人去遥操的一些数据也是非常重要的一部分,但是最终能够推动机器去真正实现能够去干活、能够去有效地走到产业化,一定是他通过自主学习来完成。”马扬说,“这一点对萨顿是非常有吸引力的。”


萨顿在近期的研究中也在强调,要让机器人实现这种自主经验的学习。双方在这个观点上不谋而合。


马扬进一步解释了这种自主学习的本质:“对于具身来讲,最重要最核心的,就是能想象到一个我要去做这件事情的一个过程,然后我去测试、去实习、去做,然后在这个过程中推导出一个结论,在不断的自己的想象来去验证的这个过程中,形成对于自身的方法论。”


他用了一个类比来说明这个过程:“像幼儿园到小学阶段,老师会介入给你一些指导,但你自己真正能学习这个东西的过程,其实是出于你自己自发的一个驱动力来完成的——自己能制定目标,预演过程,预判结果,这就是我们说人有想象力。”


对于具身来说,这意味着它要具备一定的想象能力,要自己去想“我的这个任务的完成的过程是怎么样的”,然后在完成的过程中去试错,而不是由人给它设定好所有的操作模式及路径轨迹。


萨顿认为,现在更多的是给机器人创造一个环境,让它能够去完成“正确的事情”。但真正能够给机器人带来训练的,反而是它自己在探索过程中更多的错误的事情。


马扬对此深表认同:“最终机器人要能够真实地干活,一定是他通过不断的试错来去划定自己的边界。”


在这件事情上,双方的看法非常一致:让机器人在真实环境中积极交互,在人机交互的过程中,能够从自身的经验中学习。


05.

数十台机器人、异构本体、跨物种迁移:当底层逻辑跨越本体形态


让机器人自主学习解决的是单一本体内的能力生成问题。但行业还面临另一个结构性障碍,即不同本体之间,训练逻辑如何迁移?


当前行业里普遍存在硬件孤岛问题:不同厂商的本体结构不同,训练方法不同,同一套训练逻辑迁移到不同本体上,成本很高。在与萨顿讨论之前,他山今年的工作重心,是尝试在数据到本体的迁移上同时解决泛化性与数据质量两个问题。


他山科技触觉感知方案自适应抓取精准完成抓取-移送-递交


具体思路是:两指夹爪的训练用两指夹爪的数据,五指手的训练用五指手的数据,不同本体需要对应形态的经验积累。马扬判断,这个思路在未来一到两年内依然是行业主流。但这条路有一个内在的限制:它预设了本体形态决定训练数据的边界,不同形态之间的迁移成本始终存在。


与萨顿沟通之后,马扬对这个问题有了新的思考角度。如果具身能够自己生成底层的交互逻辑,本体异构就不再是数据迁移的障碍,此时的模型是一个元方法(Meta method),不同本体基于这个元方法去拓展就可以了。


马扬再次用“拿水瓶”来解释这个逻辑:人在拿水瓶时,有几根手指、手有多少自由度,不是核心变量。核心是底层的交互逻辑,如何从接触出发,通过持续反馈完成任务。正是因为这套底层逻辑的存在,人换了手套、少了一只手,试错成本依然很低,因为大脑能自己解构任务,再用当前的本体去验证。


这套逻辑的迁移能力甚至跨越了物种边界,狗或猫看到人拿起一个东西,能很快理解这个动作的意思,并尝试用自己完全不同的本体去完成类似的事。这个现象指向一个原理:当底层交互逻辑足够稳定,迁移能力就不再被本体形态所限定。


前者(人换手套仍能完成任务)说明执行层面的底层逻辑与本体无关;后者(跨物种理解与模仿)说明学习层面的迁移能力同样与本体结构关系不大。两个例子从不同角度指向同一个结论:智能体的能力边界,并不由本体形态来划定,前提是,这套底层逻辑已经形成。


在这个逻辑尚未形成之前,本体的简单性仍然重要,变量越少,早期的经验积累越清晰。因此幼儿园初期计划中,大部分本体会采用统一规格,目的是控制变量。初步计划在训练环境中放置约数十台具身本体,其中较大部分为统一规格,同时欢迎上下游合作方的异构本体接入,在同一环境内共同参与训练。


06.

结语与未来:


马扬在访谈中也进一步明确了这件事的边界:“我们不是要在这里建一个封闭的研究院,我们现在做的是对于具身的一种启蒙,而在这个过程中,谁掌握了一个更好的教育方法,谁就能比别人走得更快一些。但方法论本身,不可能构成什么特别明确的壁垒。"


他山科技CEO马扬


在他看来,这件事的价值不在于独占,而在于能否被放大:“如果做出来的东西真正有效,推开来形成行业标准,比锁起来的意义要大得多。这是他山将研究成果尽可能开放的根本原因。”


基于这一理念,他山科技正式面向全行业发起“机器人幼儿园”生态共建计划,广泛招募合作伙伴,无论是机器人整机企业、具身智能研发团队、高校科研院所,还是核心零部件厂商、算法与数据服务商、行业应用方,都是这个平台希望接入的力量。他山的判断是:这件事靠一家公司做不完,也不应该由一家公司独占,打通技术、数据、场景与人才的协同链路,才能让“机器人幼儿园”真正成为行业级的基础设施。


如果“机器人幼儿园”最终能沉淀出一套通用训练范式,受益的就不只是他山一家。触觉数据的采集标准、多阶段学习的课程设计、跨场景迁移的评估方法,这些一旦开放,就能让后来者在物理世界训练具身智能的门槛系统性降低。这才是他山所说“行业级基础设施”的真实含义。


马扬最后说:“这件事还没有做完,很多问题我现在也没有完全想清楚。但我们在做,在试,在开放地讨论,这件事本来就没有标准答案,边做边想,反而是最诚实的方式。”



END




工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 法奥机器人 | 越疆机器人 | 节卡机器人 | 松灵机器人 | 珞石机器人 | 阿童木机器人 | 极智嘉 | 海康机器人

服务与特种机器人企业

亿嘉和 | 晶品特装 | 七腾机器人 | 史河机器人 | 普渡机器人 | 施罗德机器人 | 库犸科技MAMMOTION

人形机器人企业

优必选科技 | 宇树 | 云深处 | 星动纪元 | 伟景机器人 | 逐际动力 | 乐聚机器人 | 大象机器人 | 魔法原子 | 众擎机器人 | 帕西尼感知 | 赛博格机器人 | 数字华夏 | 傅利叶智能 | 天链机器人 | 开普勒人形机器人 | 灵宝CASBOT | 清宝机器人 | 浙江人形机器人创新中心 | 动易科技 | 智身科技 | PNDbotics | 卓益得机器人 | 鹿明机器人 | 擎朗智能| 伽利略GALILEO | 天机智能 | 卧安机器人

具身智能企业

跨维智能 | 银河通用 | 千寻智能 | 灵心巧手 | 睿尔曼智能 | 微亿智造 | 推行科技 | 中科硅纪 | 枢途科技 | 灵巧智能 | 星尘智能 | 穹彻智能 | 方舟无限 | 科大讯飞 | 北京人形机器人创新中心国地共建人形机器人创新中心 | 戴盟机器人视比特机器人星海图 月泉仿生 | 零次方机器人 | 中科深谷 | 智平方 | 大咖机器人 | 灏存科技具识智能 Xynova曦诺未来 | 非夕科技 |未来动力 | 博登智能 | 千诀科技 | 灵生科技 | 集萃智造 | 欣佰特科技 | 晨昏线科技 | Dexmal 原力灵机 | 优理奇

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 水木东方|康诺思腾 | 迪视医疗

上游产业链企业

绿的谐波 | 因时机器人 | 坤维科技 | 脉塔智能 | 青瞳视觉 | 本末科技 | 蓝点触控 | 鑫精诚传感器 | BrainCo强脑科技 | 宇立仪器 | 极亚精机 | 思岚科技 | 神源生 | 非普导航科技 | 因克斯 | 巨蟹智能驱动 | 凌云光 元客视界 | 璇玑动力| 意优科技| 瑞源精密 | 灵足时代 | HIT华威科 | 星汇传感 | 凌迪科技 | 泉智博CubeMars机器人动力