lch
发布于 2026-05-27 / 0 阅读
0

对话许华哲:具身智能不是机器人学,不是自动驾驶,是世界上的新物种

“大家还是没有完全相信 AI,没有完全相信通用。”


程曼祺 实习生付自文 裴雨桐

编辑程曼祺


两年前,我们第一次采访许华哲时是在五道口东升大厦,当时刚好聊到他为什么回国。他说相信 “东升西落”,尤其是在他研究多年的智能机器人领域:中国有软硬结合的供应链优势,又和全球前沿处于同一起跑线。


两年多后,“东升西落” 的预言部分实现:中国出现了数十家估值超过 100 亿人民币的具身智能公司。


而在《具身智能:回望 2025》里,许华哲表达了他的焦虑,他说,看到 Generalist 和 Sunday 的进展,“有一个不好的直觉”。他说:“我认为商业化很重要,也深知量产的严肃性,我只是怕我们错过了最大的那个西瓜。”


许华哲在「知乎」专栏里的文章《具身智能:回望 2025》节选。

这是促使他再次创业的原因之一,在今年 3 月初正式成立破壳机器人后,许华哲希望更加聚焦智能本身。


这之前的两年多里,许华哲是具身智能创业公司星海图的联创和首席科学家。从联创到创始人,自己来做一号位,许华哲看到过去的一些路径依赖很难走向通用的物理 AGI。


他说,具身智能不是机器人学,不是自动驾驶,也不是史前深度学习。他不相信先在一些单个场景和任务里形成数据和商业闭环再扩展,是实现更通用智能的方法。


永远不要指望,叠 100 个小模型能变成一个大模型,小模型一开始就走错了。


一个任务一个任务地解决,是解决不完的;通过做 100 件事领悟到 1000 件事,这件事不会发生。


“太技术理想了”、“科学家创业”,这是投资圈给他的部分评价。


看起来符合大模型特性的思路,面临一系列变数:包括能否拿出阶段性的成果,持续获得资源?以及一个技术 bet:在虚拟世界大展神威的大模型多大程度上能迁移到物理世界?


这次访谈发生在破壳正式成立不久后的 3 月中旬,我们记录了一个有多年前沿技术研究经历的创始人的起步状态:他回答了以上关于物理 AGI 可能如何到来的问题,以及他的过往如何促成了现在的技术判断。


智能是最重要的,这是一个没有什么争议的想法。而许华哲这次想用行动抓住这个最大的西瓜。


* 本次访谈的播客版和视频版(见文末)已经发布。

无法拒绝的时代邀约

晚点:从星海图的联创和首席科学家到 2026 年年初开始重新创立破壳机器人,外界对你的离开有诸多说法:和平分手、孵化、“闹掰”,实际是什么过程?


许华哲:我们自始至终没爆发任何争吵、冲突,离开的核心原因是我产生了新想法,而且只有我自己去做才可能做出来。其实就是做更通用的具身智能,以及做家庭机器人,我反复提到的松鼠鳜鱼(笑)。

(注:许华哲曾多次举例,让机器人能完整做一条考验刀工、火候的松鼠鳜鱼是他对具身智能的终极设想。)


晚点:继续在星海图不能做这件事吗?


许华哲:至少现阶段,家庭场景不是星海图的重点。


晚点:正式下决定创业是什么时间?


许华哲:产生这个想法是去年 8、9 月,春节前后正式敲定,公司正式注册是 3 月 3 日。


晚点:筹划、思考的几个月中,你想了什么,做了什么?


许华哲:我的习惯是先发散再收敛。那段时间我在想:家庭机器人究竟应该长成什么样、干哪些事、多长时间会到来?为了不漏掉任何可能性,我做了各种方向的调研。


一是专用家用机器人。我想过做一个专门备菜的机器人,分别问了美国和国内的朋友愿意花多少钱买,他们都会拿厨房里一个已经存在的电器来做比较——国内朋友愿意付冰箱的价,六千到一万;美国朋友最多付电饭煲的钱,两百美元。聊到这儿就进行不下去了——我们一个关节就要一千块,一个机械臂至少七个关节,光关节就超出预算了。专用家用机器人这条路,在成本大幅下降之前很难走通。


二是我也去看了工业和物流场景,跑了很多地方——车厂生产线、物流仓库、鞋厂、食品工厂、布草间……一个总结是:那些非常高价值的事早被自动化了,留给我们的是那些 “又困难但价值又没那么高” 的事。


其实这些生产场景依然值得做,只是应该用一个通用的东西降维去做,而不是专门为它定制。一旦专门定制,你会花相当多的精力和资源去解决一个低价值的问题,很长时间内都没有办法打平。


晚点:所以你认为,先有通用,再有具体场景的渗透、落地和数据与商业的闭环?


许华哲:我想象的甚至不是渗透。我们最终要做的事情是造一个人,做家庭机器人也是为了造一个人。它可以很通用,就和真人一样,下班以后,他可以在酒吧跳舞,可以在田里种地,可以教书,但都是同一个机器人,这样才算得过来。如果只是专门干某件事,人形机器人很难算得过经济账。


通用才让具身成为必争之地,因为会真正改变生产力结构,而不是单纯降本增效。


晚点:在最后选定的更通用的家庭机器人上,你看到了什么趋势?为什么认为现在是一个创业时机?


许华哲:更早之前,家庭机器人更多是我的技术目标;而到了 2025 年后半段,我越来越觉得这件事不会来得太晚。


有几个信号:一是强化学习。我们自己做的 RL 工作和后来 Pi(Physical Intelligence,美国旧金山的机器人通用基础模型公司)的π*0.6,在千次量级的具体任务中保持很高成功率。某种意义上,单点任务已经解决了。


二是大模型的长期启发:scaling law 的上限非常高,只要数据到位,通用性是有保证的,伊利亚已经证明了这件事。就像《海贼王》里说的,One Piece 的宝藏就在那儿,拉夫德鲁你找得很费劲,但它确实在那儿。


三是 Agent 框架的发展:Agent 产生了一种主动性,用 coding、tool use(工具使用)、computer use,把虚拟工具和智能的缝隙填上的能力。家庭场景也是相似的:我们家里的那么多机——洗衣机、烘干机、冰箱、微波炉,也是一个个工具——过去它们是靠一个叫 “人” 的生物串起来,而接下来有可能靠智能机器人。


晚点:“厨房 use”。


许华哲:对,谁不想要一个这种物理世界里的助理?如果能做到像 Agent 那样的主动性,家庭机器人就不再是一个新的什么 “机”,而是一个人。


晚点:Agent 是一种思路上的启发,还是虚拟世界的 Agent 框架可以直接部分复用到具身智能?


许华哲:可以直接用上。只不过 Agent 调用的 skill,在具身这里要换成物理能力——说要倒水、叠衣服,机器人得真能倒水、叠衣服。把这些能力串起来的框架和虚拟 Agent 不完全一样,但能高度借鉴。它们本质都是在帮助解决和环境交互问题。


晚点:你讲了这么多信号,但没有特别提及数据。你是认为现在数据已经不是卡点了吗?


许华哲:数据仍是卡点,但对我来说,从一开始答案就是清楚的——视频数据是终局。


2021 到 2022 年,我就在做长视频分割,让机器人从美食博主做饭的视频里学习怎么干活。那个工作的大思路是对的,从去年下半年开始,以人为中心的视频数据成为一个明显趋势,它比遥操的采集成本低很多,数据量大很多。


大家过去之所以长期用遥操来采数,是因为遥操的同构操作更容易展示进展,看起来进步明显。但往后看,视频数据一定是终局。


晚点:另一方面,有哪些因素让你在考虑创业时有犹豫?


许华哲:有一个和技术无关的点,去年开始思考创业的时候,也正在等待宝宝出生。那段时间我也在想,能不能忙得过来,是不是应该更稳定一点?


但我也感到了 “时代在召唤”,我很喜欢小时候这套广播操的名字。在这个 AI 时代,你恰好是一个搞 AI 的人,没有理由不接受这个邀请。舞台已经搭好了,难道这时要歇歇吗?我无法拒绝时代的这个 offer。


晚点:到今年正式成立公司的时候,为什么取了破壳这个名字?


许华哲:贱名好养活(笑)。因为这个名字很有生命力:很多新想法、新人破壳而出。同时,我们希望追求原始创新,希望让从 0 到 1 的东西在这里发生。

不是 Robotics,不是自动驾驶,不是 “史前深度学习”

晚点:这次出发时,你的核心假设和判断是什么?前不久(3 月初),你和 1X Technologies 的前首席科学家 Eric Jang 见面后,在社交媒体分享了一些你们的共识,可以更全面地讲一讲。


许华哲:第一个是我们都非常乐观。我之前就认为,未来 18 到 24 个月机器人能真的进入家庭做一些事,也许还不够稳定,但会让人产生 “未来已来” 的体感。这次 Eric 也主动抛出了这个判断,没想到乐观的人不止我一个。


第二是相信生态。我不会把所有事情都 in-house 自己做——摄像头帧率要怎么提升?电机线圈要怎么绕?这些不需要具身智能公司来做。


晚点:自己做很多细节,这在之前的具身智能公司里很普遍吗?


许华哲:相当多的具身智能公司会这样做,毕竟融到了很多钱,自然想做很多尝试。但我们想要的是极致和聚焦,极致在我们公司文化里排第一位。


极致就不可能面面俱到。一个组织的注意力是有限的,放在 A 上面,B 就会相对平庸。我们的注意力只放在两件事:智能和产品,产品的关键是机器人本体配上智能之后,能不能真正服务好用户。


晚点:你当时还分享了一个想法是具身智能要 AI native,对之前一些领域的路径依赖是错的。你说具身智能不是 robotics(机器人学),不是自动驾驶,也不是 caveman deep learning(史前深度学习),这具体指什么?


许华哲:不是传统机器人学,就是不是一个一个地去解决一些很难的任务,任务无法穷举。


传统机器人学喜欢做超级酷,但只能解决一件事的东西。它的极致是波士顿动力的翻跟头——精妙的数学、精密的控制,能解决非常特定的任务。更早的极致是把三个陀螺叠在一起,机器人不断转底下那根棍,保持三个陀螺不倒,和杂技似的。这很帅,但肯定不是通用 physical AGI 的路。


晚点:为什么也不是自动驾驶?


许华哲:自动驾驶的思维方式是,先在一个小场景里形成数据闭环——比如先采五道口的数据,把这段路跑好——再扩展到中关村、海淀区。用这个思路做具身,就是先在一个小场景做闭环,再扩展到其它场景和任务。


晚点:具身智能行业确实有很多自动驾驶背景的创始人,他们正在这么做吗?


许华哲:这不代表他们一定会路径依赖。只是我个人判断,用自动驾驶那种思维方式做不出通用的具身智能。


因为 AI 本质上是一个归纳器,你看到的案例类型不够多,就归纳不出正确结论。比如 AI 这辈子只看到有人用水杯喝水,它会归纳出人都要用水杯。但婴儿不用水杯,用奶瓶,还有人在野外会用树叶捧水。AI 得看到这些不同的数据才能得出更准确的结论。这件事不能后来再补——如果一个模型已经在预训练阶段归纳出了错误结论,在后训练时再补数据的代价极大。所以必须从一开始就把海量的、多样的数据放在一起训练。


晚点:“不是史前深度学习” 又是指什么?


许华哲:就是用小模型叠加小模型。这和机器人的思维有些像。机器人学也可以用深度学习,它在每一个小任务上的小模型也都是端到端的,但每个模型只能干好一件事。


永远不要指望,叠 100 个小模型能变成一个大模型,小模型一开始就走错了。


晚点:如果相信大语言模型的思路能迁移到物理 AI,那你的想法——在预训练阶段见海量、多样的数据是自然而然的思路。但过去几年行业的实践,更多是先追求在一个特定场景和任务上的闭环。你觉得这是为什么?


许华哲我觉得大家还是没有完全相信 AI,没有完全相信通用,也没有完全相信 scaling law,或者说相信 scaling law  会带来物理 AGI。


很多人做具身智能,骨子里还是觉得就是做机器人、机械臂,只不过长了个人的样子。这是一个很重要的分歧。


晚点:大模型目前呈现出 “锯齿型智能”:它能完成很难的任务,也会在一些简单任务上掉链子。而通用机器人对安全性和可控性的要求很高,这会是个问题吗?


许华哲:会是个问题,但可以通过产品设计来补窟窿,比如可以明确规定 “不做什么”。


我们第一天就定了:目前不做任何直接接触人体的服务,比如给老人翻身、擦拭、抱婴儿、按摩,这些全不做。一旦出问题风险太大,政策上也会有很多挑战。


晚点:是否有一种可能,在大语言模型上展现了神奇效果的预训练方法在物理世界行不通?或者迁移起来有很大的阻碍?


许华哲:如果数据齐全、硬件稳定,我认为不太可能出现这种情况。我一直很想试试看,如果我们用低质量语言数据做 LLM 预训练,然后再用高质量数据微调会发生什么?如果效果非常差,可能意味着我们要从预训练数据开始就做得非常好,这种情况下,规模化的速度会慢很多。

未来的 18-24 个月

晚点:沿着你这些核心假设,破壳第一阶段会重点做什么?


许华哲:三件大事:造硬件本体、训 AI 模型、定义产品。


晚点:在你最关注的模型和智能上,你们具体的思路是?


许华哲:我们想用强化学习的方式来做,强化学习依然被低估了。


从宏观角度想,AI 需要三件事:跟世界交互产生数据、对数据有自己的评估、然后使用好这些数据。现在很多团队低估了 “评估”:数据质量良莠不齐,全部怼进去训,坏数据会让策略劣化。那些次优的数据要不要给它评分评级?那些失败的数据要不要把它用起来?我认为这些都是强化学习能覆盖的范围,也是我们在模型上会有较多不同的地方。


晚点:你们的整个软件系统会是一个统一的模型还是分层、多模块的结构?


许华哲:顶层的 VLM(Vision-Language Model,视觉语言模型)可以分层,但与行为和动作相关的或者说干活的部分必须是统一模型。


回到前面提到的 AI 的本质是 “归纳”,一个任务一个任务地解决是解决不完的;通过做 100 件事领悟到 1000 件事,这件事永远不会发生。所以必须是一个模型。


晚点:端到端、统一模型,大家都这么说。实际上目前业界真正在用的机器人上跑的是什么模型结构?


许华哲:预训练阶段大家都还是端到端的模型。但后训练阶段,我的观察是大家基本上是在某一个任务上后训练一下就没了,也就是把预训练出的模型在后训练阶段收缩到一个具体任务上。


而我们想做的是规模化的强化学习后训练,让模型在后训练之后仍保持泛化性,仍能做多种任务。这是目前业界做得比较少的东西。


晚点:这会不会导致,模型在每个单独任务上的初期表现都比较差、比较平庸?


许华哲:本来就应该如此。每个任务开始都比较差,然后一起变好,最后所有任务都变得好——而不是我在一个任务上做到 100 分,再慢慢扩展。这和 AI native 的逻辑是一致的。


晚点:从 “多数任务都比较平庸” 到 “多数任务都表现不错”,大概需要多久?


许华哲:不好预测。


晚点:这在技术上是自洽的,但公司运营起来后,团队、投资人、市场都会盯着你们,都希望看到一步一个脚印的进展。怎么解决这个张力?


许华哲:这是一个双向筛选。我还挺喜欢 OpenAI 早期那个尴尬阶段,当然也比较艰难——他们说我要 scaling,要堆一大堆数据,要做出 AGI,大多数人不相信,但也有人相信,所以就去找相信的人一起做。


晚点:OpenAI 是一种 “蓝血创业”,有马斯克、霍夫曼这样已经赚到很多钱的人支持。在中国的环境下,双向筛选后,万一相信你的人很少呢?


许华哲:(大笑)这当然是一个风险。所以我们也不会完全不展示进展,我们规划了很多中间里程碑。


而且我挺惊讶的一点是,最近跟很多投资人聊,我以为他们会问 3 个月、6 个月能拿出什么?但也有一波投资人跟我说:华哲,我不在乎这个,我在乎的是你最后做的是不是那个最大的东西,“不要小瞧我们投资人对未来的梦想”。


晚点:这可能是因为现在具身智能处于投资热潮期,但投资情绪之后会波动。


许华哲:是的。但另一方面,抛开已经看到的大模型,未来足够改变人类社会的事情也很少,大概就是去太空、量子计算、具身智能、可控核聚变。这四件事里,确定性最高的其实是具身智能——虽然也很远,但几乎是确定会到来。


晚点:你们给自己定的里程碑是什么?


许华哲:一年左右,我们办公室里的机器人能在一个家的环境里 “玩起来”,两年后,也就是 2028 年初,已经有人在用我们的机器人在家里做一些事情。到时候可以再录一期访谈。万一打脸了,你来问我为什么没做到。


晚点:那还是希望你做到了。接下来 18~24 个月,你觉得要达成你们的目标,哪些部分是相对确定的,哪些还悬而未决?


许华哲:比较确定的有三件事:数据会往视频方向走,数据量会持续增加;随着数据变大,模型能力一定会变好;大家对家庭机器人的接受度也会越来越高,就像智能手机一样。


不确定的是路径——究竟用什么模型结构把这些数据吃进去?什么本体形态大家最能接受?硬件也是卡点,但是可以攻克,缺什么基本都能造出来或找到,只是时间和投入的问题。


晚点:关于怎么做具身智能模型,你分享过一个思路:预训练配合物理先验。怎么赋予具身模型物理先验?


许华哲:有很多方式,世界模型就是一个很好的物理先验来源——可以把它当骨干网络,可以把它当数据生成器,可以用它预测下一帧再求逆解把中间动作求出来。我们目前倾向于把它当骨干网络,但这块整体还在探索中。


晚点:按照你 “生态的事” 交给生态做的思路,世界模型是你们要自己做,还是行业里其它公司做?


许华哲:不需要从头自己做,有专门的团队在做世界模型。我们的注意力只放在最重要的事上。


晚点:你对实现未来两年的里程碑要投入多少资源,是怎么计算的?


许华哲:取决于数据量。在现有数据量下,一年一到两亿人民币比较合理。但数据量起来后,投入会和大模型差不多,是一个重资源竞争。


晚点:如果 18 到 24 个月后,智能机器人真的开始进家庭会发生什么?


许华哲:大公司也会跳进来。大公司没办法离开主营业务去做新的事情,只能在这里驻扎一个小实验室。但当他们发现这件事有潜力成为新主营业务,他们就会来。所以留给我们的窗口就是这 18 到 24 个月。

最好的会在中国发生,但小心别错过最大的西瓜

晚点:现阶段你最关注全球的哪些同行?你曾在文章中提到,看到 Generalist 和 Pi 的进展令你焦虑。


许华哲:智能方面,有 Pi、Generalist(美国具身智能独角兽公司,主打通用机器人基础模型)、Sunday(美国 AI 家用机器人独角兽公司,主打轮式人形家务机器人)和 Figure(美国人形机器人公司,开发通用人形机器人及 VLA 视觉-语言-动作模型)。Figure 最近发布的整理客厅的视频过于丝滑,我很想去现场看看到底是不是真的,还是说部分遥操的?另外三家的人员背景决定了他们在智能上的进展会比较扎实。


产品设计上,除了 Sunday,我也很喜欢国内傅利叶的 GR-3,白白的很可爱,还有头扁扁的 Fauna 和小鹏的机器人。他们的设计在家庭场景都有可取之处。


晚点:你提到的 Pi、Generalist、Sunday 等都是海外企业,而两年前我们第一次聊时,那会儿是在东升大厦,你说相信 “东升西落” 是你回国的原因之一。为什么现在智能能力上还是和他们有差距?


许华哲:我依然坚信,最好的东西最终会在中国出现。但目前美国创业团队展现出了更好的战略定力。比如 Pi 从第一天起就坚定朝着通用 physical intelligence 的愿景推进,没有急于商业化,也没有中途改方向。除了资金充裕带来的更大容错空间,也和行业氛围有关——如果周围同行都在死磕底层智能,大家就都会更倾向做最本质的技术。


这也是为什么我经常在网上分享一些想法,就是希望国内的行业氛围向更本质的方向靠一靠。如果中国具身智能从业者只做 “铁疙瘩”,而不掌握通用智能的大脑,我们就会错失最大的西瓜,也错过了定义未来的能力。


晚点:目前我们肯定还没有错过这个窗口?


许华哲:当然没有,但我们正处在关键的竞争节点。可能在技术奇点到来时,会发生一些很科幻的事情:大模型开始自己写代码来改进大模型,机器人开始自己拧螺丝制造机器人。一旦智能进化到那个临界点,游戏就结束了。所以我们必须在那之前缩小差距。


晚点:你觉得留给大家的时间还有多久?


许华哲:没有一个精确的时间。就真正达到人类等级的通用智能而言,我认为可能 5 年左右。


晚点:你觉得目前机器人领域有哪些现象不利于 “智能” 的提升?


许华哲:首先是卖数据。很多公司采到数据后会卖给英伟达、Google 这样的巨头。这些数据是智能化的 “弹药”,如果为了账面收入好看或融资,把弹药卖给竞争对手,我觉得这就像《六国论》里的 “今日割五城,明日割十城”,是非常危险的短视行为。


第二个是无脑量产。首先是机器人没有真正的 “大脑” 智能,然后是不考虑真实需求、盲目铺量。其实我很想看到一个指标,叫 “机器人日活”。比如卖出 5000 台,有多少台是被活跃使用?如果只有 20% 是真实使用,而又只有 20% 是频繁使用,那其实挺遗憾的。


最后是机器人跳舞吧。它当然有一定表演需求,但如果像体操运动员一样卷更大幅度的转体,我觉得意义不大,和真正的 “智能” 关系不大。

从清华到伯克利,从游戏到物理世界

晚点:我有一个没什么逻辑的印象:具身智能行业里有很多东北人创业者,比如千寻智能的联创高阳、逐际动力的创始人张巍、Light Robotics 的创始人姜旭。以前可能有一种偏见是东北人创业者没那么多。东北人和机器人之间是有什么亲和性吗?


许华哲:你这个观察未必对,严格统计,这么多具身智能创始人里,东北人的比例未必是最高的。其次 “东北” 很大,涵盖三个省,基数就大。


非要说的话,我觉得东北人比较 physical,很享受真实、具体的生活,比如网上调侃东北人一言不合就动手,当然这是假的。


晚点:你是什么时候开始觉得机器人是你想要长期投入的方向?


许华哲:是博士期间。而我对 AI 的兴趣是高中搞竞赛时就开始了,我自己是搞物理竞赛的,但当时经常和计算机竞赛的小伙伴在机房里看神经网络,空想计算机的极限,觉得未来神经网络可能会做出真正的 AI。


大一时,我在清华电子系参加过一个写 AI 游戏的比赛。当时我尝试用神经网络去写,但完全不好使,最后还是改成传统搜索算法。因为我本身很喜欢打游戏,博士期间还花过 6 到 9 个月全职写一个《星际争霸》的 AI。那时我就想做一个自主决策的 AI 系统,不过还没有明确聚焦到机器人上。


晚点:后来逐渐转移到机器人领域是一个什么过程?


许华哲:博士三、四年级时,我从计算机视觉切入,真正看到神经网络的能力,也参与过自动驾驶项目,发现 AI 确实可以在物理世界里做决策。那时 OpenAI 在用强化学习打 Dota,我也尝试用强化学习做各种游戏。我发现只要肯投入,AI 在游戏里通常都能做得比人强。


但机器人不一样,它挑战更大,影响力也更深远,所以我把它作为更长远的目标。游戏毕竟只服务一部分玩家,而机器人是所有人都会需要的。


晚点:在 2018 到 2019 年左右,也就是你读博三、博四的时候,心境似乎发生了很大的变化。你在知乎上分享过从 21 岁到 30 岁每年生日写给自己的话,那两年的画风突然变得深沉了,当时经历了什么?


许华哲:当时我有一种 “好学生当完了” 的迷茫感。我从小习惯于冲到各个圈层的第一梯队,那时论文发够了,毕业要求也达到了。按线性路径,接着发几篇 paper,读博后,去 Google、Facebook 或者国内找工作,都是很清晰的。


但我开始反思:这样做的意义是什么?我发现大多数科研只是人类进步路上的一点 “噪音”,真正往前推进一步的是少数。


我不想继续制造噪音,也发现自己对住大房子、世俗成功并不感兴趣。我更在意的是,能不能获得极致体验,以及真正帮到更多人。


晚点:这种心态转变也体现在你的生活方式上吗?我看你以前的爱好非常丰富,后来逐渐收敛了。


许华哲:以前我更追求 “嗨”,音乐节、越野跑说去就去。但后来我开始做减法,兴趣慢慢收敛到古典音乐和网球。


它们都涉及大量 “有变化的重复”。表面看是枯燥的过程,但每一次重复都在微调细节,本质上像一个强化学习过程。我不喜欢平面上的发散,更喜欢这种重复但螺旋上升的事情。


至于机器人,它在我心中不是爱好,而是爱和使命。


晚点:有投资人认为好奇心大于成就感的人不适合创业,你会怎么在这两个维度里定位自己?


许华哲:我同时追求好奇心和成就感,但创业需要的是聚焦的好奇心。如果今天做机器人,明天想做大模型,后天又做智能手环,那肯定都做不成。而我的使命已经确定了,剩下的好奇心都会集中在一件事上:怎么把它做成。


晚点:你追求的挑战更大、更有影响力,具体来说是什么?


许华哲:挑战更大,是我一直的习惯,就是当有的选时,我通常会选更难的事。我追求极致的体验,人生的意义就在于体验,如果做的事情太简单,体验就会很差。玩游戏我也是直接选最难的模式。


晚点:保送和高考,你觉得哪个更难?


许华哲:虽然最后结果是保送了,但其实中间比较曲折。当时我因为各种原因没能通过物理竞赛直接保送清华。有两个选择摆在我面前:一是稳妥地保送上海的一所高校,也挺好的学校;二是参加清华自己的保送生考试。父母当时劝我直接保送去上海,但我几乎没怎么犹豫,直接决定再考一次,大不了就回去高考。我会本能地选更难的事,因为做简单的事会大大降低乐趣。


晚点:那 “更有影响力” 意味着什么?


许华哲:这个是围绕我的核心追求产生的,就是帮助更多的人。有个故事是一个小女孩写信问航天局,为什么每年花这么多钱造火箭,而不把钱捐给吃不起饭的人?回信写道:其实若干年前,也有一群人把能买面包的钱拿去研究显微镜,当时看似无用,但后来人类借此发现了抗生素。


你很难在当下判断哪件事绝对正确,但我希望能做发明显微镜、造火箭这样具有长远影响力的事。

技术美在简单、一致,人生想尽力而为

晚点:你刚才描述音乐、网球还有你做研究的过程都是一种美的形式,你的技术审美和偏好是什么?


许华哲:我认为简单是每个技术人员应该都公认的第一性的美。正如爱因斯坦说的:Everything should be made as simple as possible, but not simpler. 我在课题组也常和大家聊,要用小方法解决大问题,这才是最美的。反过来,如果方法极其复杂,最后只能解决一个倒水之类的小问题,在技术上往往是丑陋的。


此外,我也很看重 “一致性”,这个可能有点难描述——我不喜欢各种思路的生硬拼凑。如果用知识图谱式的方式做事,下层就不应该有深度学习的模型,而是逐层拆成一个巨大无比的网络;而如果相信端到端,那就应该让它从宏观到微观层面在逻辑上统一协调。


晚点:你觉得有用在你的审美里是什么位置?


许华哲:有用是一个结果。


晚点:回顾 2025 年,你觉得有哪些重大的技术进展对具身智能行业产生了深远影响?


许华哲:2025 年的成果非常多。首先,Pi 的系列工作是一个核心推动力;其次,Generalist 数据集的规模化让我们看到了 scaling law 在具身领域的威力。然后一大批 Embodied VLM(具身视觉语言模型)的涌现,让机器人更理解空间和语义。


强化学习方面,我自己有一个工作:针对 7 个特定任务测试了 900 次,成功率达到 100%,大家都很兴奋。虽然这 7 个任务还没有完全整合在一起,但后续可以沿着这个方向继续做新的工作。


晚点:目前这个领域出现了像 2017 年 Transformer 那样开创性工作吗?


许华哲:这需要时间检验。很多学术会议会评 “时间检验奖”,很有意思的一点是,很少有当年的最佳论文后来拿过这个奖。比如影响力很大的 NeRF(神经辐射场技术)当年也没拿到最佳论文。2025 年可能有类似开创性的成果,但现在谁也评不出来。


晚点:评价科研成果的价值连科学家都觉得难,未来如果用 AI 来做科研,它能分辨出哪些是真正帮助人类前进的 “砖块”,哪些是大部分的 “噪音” 吗?


许华哲:评价论文是否达到一般水平比较容易,但判断其深远影响比较难。论文你可以认为是个 “产品”,可以包装得非常精良,再配合有价值的内容,很容易在当年获得好名声。但真正的好东西是试出来的,这和创业很像,最后试出来有用的往往不是最初被看好的那个。


晚点:你做过或参与过的成果里,哪个是你最骄傲的?


许华哲:下一个。


晚点:这是标准答案,这个不算。


许华哲:我很喜欢的是机器人包饺子的一个项目:从擀面到包馅,是个长程任务。当时是采用世界模型加上各种工具使用,搭建了一个大系统的方案,挺有挑战性。


然后 DP3,是我们团队将三维视觉与扩散模型结合的工作,取得了不错的效果。还有刚才提到的强化学习成果。


再就是我们课题组一个新的远程触觉研究。比如人在北京,控制上海的一台带触觉传感器的机械臂去摸东西,北京这边可以感受到物体的软硬、粗糙程度和形状。我们用这个尝试做了远程乳腺癌的触诊,但这只是一个实验,不是真正意义上能用。它还做不到完全像人手,但已经能实现我刚提到的那三个维度。至于更细腻的质感和温度,目前还很难模拟,我们只是开了一个头。但我蛮喜欢这个事情。未来也许机器人会上火星,我们可以在地球上摸摸火星上的东西。


晚点:你现在除了创业,也还在继续做技术分享和访谈内容。这种持续输出的动力是什么?


许华哲:对我来说,做内容其实是一种放松。其次,让信息更透明,帮助更多人获取需要的信息,也是我的追求。我经常看到网友说,“如果不是通过这个平台,我永远也听不到这样的故事。” 这种反馈让我觉得很值得。


另外,我们做的是 To C 业务,这些来自用户的真实评价,对我们打磨产品也很有帮助。


晚点:你现在自己带课题组做前沿探索,同时公司也要做主线研发。你的精力会怎么分配?


许华哲:本质上需要解决的都是通用的物理智能,也谈不上如何分配精力。所以怎样能最快、最有效地接近物理智能,我就怎么去做。


晚点:你最近主要在思考什么问题?或者看什么书?


许华哲:最近想得最多的是公司该怎么走,主线和节奏是什么样,抽象的思考会少一些。


书最近读了哈萨比斯的传记,非常有共鸣。我很喜欢书中关于 “怎样算过了尽力的一生” 的描述:人生就像跑马拉松,冲过终点线时最好能立刻跪下;更好的是你被抬进医院,但没有死掉,这跟我的人生观很像。马拉比笔下的哈萨比斯,可以说是所有追求 AGI 的人的缩影,展现了一种近乎虔诚的状态。


晚点:作为创业者,你会担心自己缺少某些特质吗?


许华哲:不是特别担心,因为你很难定义什么是好的创业者。你可以木讷,可以乐观或悲观。我们看到的很多企业家都很不一样,并没有某种绝对必要的特质。


晚点:你怎么预估创业的挑战和难度?


许华哲:挑战肯定是足够大,这也符合我的决策思路:去做挑战更大的事情,成功概率也一定很低。不管是已经名声在外,还是刚刚开始,我觉得胜率是差不多的,都很低。


所以关键是:我们有没有尽全力、做到极致体验?有没有为世界创造一些东西?最后如果做成了,这些问题都有比较好的答案,我觉得就够了。


晚点:这半年的创业经历,让你发现了自己哪些不一样的地方?


许华哲:我觉得找回了曾经的自己。其实我从高中开始就很想创业,只是后来越做越学术,也没想过自己会读博士、做博后,最后成为大学老师。


现在创业可能会从早上 8 点半工作到凌晨 12 点。这种满负荷、高能量的状态让我很快乐,因为是我想做成一件事,然后主动做,而不是别人让我做。


晚点:到今年 8 月写生日感言或者年底做总结时,你希望自己和公司处于什么样的状态?


许华哲:个人生活上,我希望我的娃那时候已经会说话了。


公司层面,我希望到时已经组建起一个很不错的团队,并且真正造出了一些东西。现在办公室还是一片荒芜,只有地板,我期待那时能带着大家跑出一个小小的雏形。


晚点:破壳而生了?


许华哲:点题了。


题图来源:晚点

- FIN -