对话许华哲：具身智能不是机器人学，不是自动驾驶，是世界上的新物种

“大家还是没有完全相信 AI，没有完全相信通用。”

文丨程曼祺实习生付自文裴雨桐

编辑丨程曼祺

两年前，我们第一次采访许华哲时是在五道口东升大厦，当时刚好聊到他为什么回国。他说相信 “东升西落”，尤其是在他研究多年的智能机器人领域：中国有软硬结合的供应链优势，又和全球前沿处于同一起跑线。

两年多后，“东升西落” 的预言部分实现：中国出现了数十家估值超过 100 亿人民币的具身智能公司。

而在《具身智能：回望 2025》里，许华哲表达了他的焦虑，他说，看到 Generalist 和 Sunday 的进展，“有一个不好的直觉”。他说：“我认为商业化很重要，也深知量产的严肃性，我只是怕我们错过了最大的那个西瓜。”

许华哲在「知乎」专栏里的文章《具身智能：回望 2025》节选。

这是促使他再次创业的原因之一，在今年 3 月初正式成立破壳机器人后，许华哲希望更加聚焦智能本身。

这之前的两年多里，许华哲是具身智能创业公司星海图的联创和首席科学家。从联创到创始人，自己来做一号位，许华哲看到过去的一些路径依赖很难走向通用的物理 AGI。

他说，具身智能不是机器人学，不是自动驾驶，也不是史前深度学习。他不相信先在一些单个场景和任务里形成数据和商业闭环再扩展，是实现更通用智能的方法。

永远不要指望，叠 100 个小模型能变成一个大模型，小模型一开始就走错了。

一个任务一个任务地解决，是解决不完的；通过做 100 件事领悟到 1000 件事，这件事不会发生。

“太技术理想了”、“科学家创业”，这是投资圈给他的部分评价。

看起来符合大模型特性的思路，面临一系列变数：包括能否拿出阶段性的成果，持续获得资源？以及一个技术 bet：在虚拟世界大展神威的大模型多大程度上能迁移到物理世界？

这次访谈发生在破壳正式成立不久后的 3 月中旬，我们记录了一个有多年前沿技术研究经历的创始人的起步状态：他回答了以上关于物理 AGI 可能如何到来的问题，以及他的过往如何促成了现在的技术判断。

智能是最重要的，这是一个没有什么争议的想法。而许华哲这次想用行动抓住这个最大的西瓜。

* 本次访谈的播客版和视频版（见文末）已经发布。

无法拒绝的时代邀约

晚点：从星海图的联创和首席科学家到 2026 年年初开始重新创立破壳机器人，外界对你的离开有诸多说法：和平分手、孵化、“闹掰”，实际是什么过程？

许华哲：我们自始至终没爆发任何争吵、冲突，离开的核心原因是我产生了新想法，而且只有我自己去做才可能做出来。其实就是做更通用的具身智能，以及做家庭机器人，我反复提到的松鼠鳜鱼（笑）。

（注：许华哲曾多次举例，让机器人能完整做一条考验刀工、火候的松鼠鳜鱼是他对具身智能的终极设想。）

晚点：继续在星海图不能做这件事吗？

许华哲：至少现阶段，家庭场景不是星海图的重点。

晚点：正式下决定创业是什么时间？

许华哲：产生这个想法是去年 8、9 月，春节前后正式敲定，公司正式注册是 3 月 3 日。

晚点：筹划、思考的几个月中，你想了什么，做了什么？

许华哲：我的习惯是先发散再收敛。那段时间我在想：家庭机器人究竟应该长成什么样、干哪些事、多长时间会到来？为了不漏掉任何可能性，我做了各种方向的调研。

一是专用家用机器人。我想过做一个专门备菜的机器人，分别问了美国和国内的朋友愿意花多少钱买，他们都会拿厨房里一个已经存在的电器来做比较——国内朋友愿意付冰箱的价，六千到一万；美国朋友最多付电饭煲的钱，两百美元。聊到这儿就进行不下去了——我们一个关节就要一千块，一个机械臂至少七个关节，光关节就超出预算了。专用家用机器人这条路，在成本大幅下降之前很难走通。

二是我也去看了工业和物流场景，跑了很多地方——车厂生产线、物流仓库、鞋厂、食品工厂、布草间……一个总结是：那些非常高价值的事早被自动化了，留给我们的是那些 “又困难但价值又没那么高” 的事。

其实这些生产场景依然值得做，只是应该用一个通用的东西降维去做，而不是专门为它定制。一旦专门定制，你会花相当多的精力和资源去解决一个低价值的问题，很长时间内都没有办法打平。

晚点：所以你认为，先有通用，再有具体场景的渗透、落地和数据与商业的闭环？

许华哲：我想象的甚至不是渗透。我们最终要做的事情是造一个人，做家庭机器人也是为了造一个人。它可以很通用，就和真人一样，下班以后，他可以在酒吧跳舞，可以在田里种地，可以教书，但都是同一个机器人，这样才算得过来。如果只是专门干某件事，人形机器人很难算得过经济账。

通用才让具身成为必争之地，因为会真正改变生产力结构，而不是单纯降本增效。

晚点：在最后选定的更通用的家庭机器人上，你看到了什么趋势？为什么认为现在是一个创业时机？

许华哲：更早之前，家庭机器人更多是我的技术目标；而到了 2025 年后半段，我越来越觉得这件事不会来得太晚。

有几个信号：一是强化学习。我们自己做的 RL 工作和后来 Pi（Physical Intelligence，美国旧金山的机器人通用基础模型公司）的π*0.6，在千次量级的具体任务中保持很高成功率。某种意义上，单点任务已经解决了。

二是大模型的长期启发：scaling law 的上限非常高，只要数据到位，通用性是有保证的，伊利亚已经证明了这件事。就像《海贼王》里说的，One Piece 的宝藏就在那儿，拉夫德鲁你找得很费劲，但它确实在那儿。

三是 Agent 框架的发展：Agent 产生了一种主动性，用 coding、tool use（工具使用）、computer use，把虚拟工具和智能的缝隙填上的能力。家庭场景也是相似的：我们家里的那么多机——洗衣机、烘干机、冰箱、微波炉，也是一个个工具——过去它们是靠一个叫 “人” 的生物串起来，而接下来有可能靠智能机器人。

晚点：“厨房 use”。

许华哲：对，谁不想要一个这种物理世界里的助理？如果能做到像 Agent 那样的主动性，家庭机器人就不再是一个新的什么 “机”，而是一个人。

晚点：Agent 是一种思路上的启发，还是虚拟世界的 Agent 框架可以直接部分复用到具身智能？

许华哲：可以直接用上。只不过 Agent 调用的 skill，在具身这里要换成物理能力——说要倒水、叠衣服，机器人得真能倒水、叠衣服。把这些能力串起来的框架和虚拟 Agent 不完全一样，但能高度借鉴。它们本质都是在帮助解决和环境交互问题。

晚点：你讲了这么多信号，但没有特别提及数据。你是认为现在数据已经不是卡点了吗？

许华哲：数据仍是卡点，但对我来说，从一开始答案就是清楚的——视频数据是终局。

2021 到 2022 年，我就在做长视频分割，让机器人从美食博主做饭的视频里学习怎么干活。那个工作的大思路是对的，从去年下半年开始，以人为中心的视频数据成为一个明显趋势，它比遥操的采集成本低很多，数据量大很多。

大家过去之所以长期用遥操来采数，是因为遥操的同构操作更容易展示进展，看起来进步明显。但往后看，视频数据一定是终局。

晚点：另一方面，有哪些因素让你在考虑创业时有犹豫？

许华哲：有一个和技术无关的点，去年开始思考创业的时候，也正在等待宝宝出生。那段时间我也在想，能不能忙得过来，是不是应该更稳定一点？

但我也感到了 “时代在召唤”，我很喜欢小时候这套广播操的名字。在这个 AI 时代，你恰好是一个搞 AI 的人，没有理由不接受这个邀请。舞台已经搭好了，难道这时要歇歇吗？我无法拒绝时代的这个 offer。

晚点：到今年正式成立公司的时候，为什么取了破壳这个名字？

许华哲：贱名好养活（笑）。因为这个名字很有生命力：很多新想法、新人破壳而出。同时，我们希望追求原始创新，希望让从 0 到 1 的东西在这里发生。

不是 Robotics，不是自动驾驶，不是 “史前深度学习”

晚点：这次出发时，你的核心假设和判断是什么？前不久（3 月初），你和 1X Technologies 的前首席科学家 Eric Jang 见面后，在社交媒体分享了一些你们的共识，可以更全面地讲一讲。

许华哲：第一个是我们都非常乐观。我之前就认为，未来 18 到 24 个月机器人能真的进入家庭做一些事，也许还不够稳定，但会让人产生 “未来已来” 的体感。这次 Eric 也主动抛出了这个判断，没想到乐观的人不止我一个。

第二是相信生态。我不会把所有事情都 in-house 自己做——摄像头帧率要怎么提升？电机线圈要怎么绕？这些不需要具身智能公司来做。

晚点：自己做很多细节，这在之前的具身智能公司里很普遍吗？

许华哲：相当多的具身智能公司会这样做，毕竟融到了很多钱，自然想做很多尝试。但我们想要的是极致和聚焦，极致在我们公司文化里排第一位。

极致就不可能面面俱到。一个组织的注意力是有限的，放在 A 上面，B 就会相对平庸。我们的注意力只放在两件事：智能和产品，产品的关键是机器人本体配上智能之后，能不能真正服务好用户。

晚点：你当时还分享了一个想法是具身智能要 AI native，对之前一些领域的路径依赖是错的。你说具身智能不是 robotics（机器人学），不是自动驾驶，也不是 caveman deep learning（史前深度学习），这具体指什么？

许华哲：不是传统机器人学，就是不是一个一个地去解决一些很难的任务，任务无法穷举。

传统机器人学喜欢做超级酷，但只能解决一件事的东西。它的极致是波士顿动力的翻跟头——精妙的数学、精密的控制，能解决非常特定的任务。更早的极致是把三个陀螺叠在一起，机器人不断转底下那根棍，保持三个陀螺不倒，和杂技似的。这很帅，但肯定不是通用 physical AGI 的路。

晚点：为什么也不是自动驾驶？

许华哲：自动驾驶的思维方式是，先在一个小场景里形成数据闭环——比如先采五道口的数据，把这段路跑好——再扩展到中关村、海淀区。用这个思路做具身，就是先在一个小场景做闭环，再扩展到其它场景和任务。

晚点：具身智能行业确实有很多自动驾驶背景的创始人，他们正在这么做吗？

许华哲：这不代表他们一定会路径依赖。只是我个人判断，用自动驾驶那种思维方式做不出通用的具身智能。

因为 AI 本质上是一个归纳器，你看到的案例类型不够多，就归纳不出正确结论。比如 AI 这辈子只看到有人用水杯喝水，它会归纳出人都要用水杯。但婴儿不用水杯，用奶瓶，还有人在野外会用树叶捧水。AI 得看到这些不同的数据才能得出更准确的结论。这件事不能后来再补——如果一个模型已经在预训练阶段归纳出了错误结论，在后训练时再补数据的代价极大。所以必须从一开始就把海量的、多样的数据放在一起训练。

晚点：“不是史前深度学习” 又是指什么？

许华哲：就是用小模型叠加小模型。这和机器人的思维有些像。机器人学也可以用深度学习，它在每一个小任务上的小模型也都是端到端的，但每个模型只能干好一件事。

永远不要指望，叠 100 个小模型能变成一个大模型，小模型一开始就走错了。

晚点：如果相信大语言模型的思路能迁移到物理 AI，那你的想法——在预训练阶段见海量、多样的数据是自然而然的思路。但过去几年行业的实践，更多是先追求在一个特定场景和任务上的闭环。你觉得这是为什么？

许华哲：我觉得大家还是没有完全相信 AI，没有完全相信通用，也没有完全相信 scaling law，或者说相信 scaling law 会带来物理 AGI。

很多人做具身智能，骨子里还是觉得就是做机器人、机械臂，只不过长了个人的样子。这是一个很重要的分歧。

晚点：大模型目前呈现出 “锯齿型智能”：它能完成很难的任务，也会在一些简单任务上掉链子。而通用机器人对安全性和可控性的要求很高，这会是个问题吗？

许华哲：会是个问题，但可以通过产品设计来补窟窿，比如可以明确规定 “不做什么”。

我们第一天就定了：目前不做任何直接接触人体的服务，比如给老人翻身、擦拭、抱婴儿、按摩，这些全不做。一旦出问题风险太大，政策上也会有很多挑战。

晚点：是否有一种可能，在大语言模型上展现了神奇效果的预训练方法在物理世界行不通？或者迁移起来有很大的阻碍？

许华哲：如果数据齐全、硬件稳定，我认为不太可能出现这种情况。我一直很想试试看，如果我们用低质量语言数据做 LLM 预训练，然后再用高质量数据微调会发生什么？如果效果非常差，可能意味着我们要从预训练数据开始就做得非常好，这种情况下，规模化的速度会慢很多。

未来的 18-24 个月

晚点：沿着你这些核心假设，破壳第一阶段会重点做什么？

许华哲：三件大事：造硬件本体、训 AI 模型、定义产品。

晚点：在你最关注的模型和智能上，你们具体的思路是？

许华哲：我们想用强化学习的方式来做，强化学习依然被低估了。

从宏观角度想，AI 需要三件事：跟世界交互产生数据、对数据有自己的评估、然后使用好这些数据。现在很多团队低估了 “评估”：数据质量良莠不齐，全部怼进去训，坏数据会让策略劣化。那些次优的数据要不要给它评分评级？那些失败的数据要不要把它用起来？我认为这些都是强化学习能覆盖的范围，也是我们在模型上会有较多不同的地方。

晚点：你们的整个软件系统会是一个统一的模型还是分层、多模块的结构？

许华哲：顶层的 VLM（Vision-Language Model，视觉语言模型）可以分层，但与行为和动作相关的或者说干活的部分必须是统一模型。

回到前面提到的 AI 的本质是 “归纳”，一个任务一个任务地解决是解决不完的；通过做 100 件事领悟到 1000 件事，这件事永远不会发生。所以必须是一个模型。

晚点：端到端、统一模型，大家都这么说。实际上目前业界真正在用的机器人上跑的是什么模型结构？

许华哲：预训练阶段大家都还是端到端的模型。但后训练阶段，我的观察是大家基本上是在某一个任务上后训练一下就没了，也就是把预训练出的模型在后训练阶段收缩到一个具体任务上。

而我们想做的是规模化的强化学习后训练，让模型在后训练之后仍保持泛化性，仍能做多种任务。这是目前业界做得比较少的东西。

晚点：这会不会导致，模型在每个单独任务上的初期表现都比较差、比较平庸？

许华哲：本来就应该如此。每个任务开始都比较差，然后一起变好，最后所有任务都变得好——而不是我在一个任务上做到 100 分，再慢慢扩展。这和 AI native 的逻辑是一致的。

晚点：从 “多数任务都比较平庸” 到 “多数任务都表现不错”，大概需要多久？

许华哲：不好预测。

晚点：这在技术上是自洽的，但公司运营起来后，团队、投资人、市场都会盯着你们，都希望看到一步一个脚印的进展。怎么解决这个张力？

许华哲：这是一个双向筛选。我还挺喜欢 OpenAI 早期那个尴尬阶段，当然也比较艰难——他们说我要 scaling，要堆一大堆数据，要做出 AGI，大多数人不相信，但也有人相信，所以就去找相信的人一起做。

晚点：OpenAI 是一种 “蓝血创业”，有马斯克、霍夫曼这样已经赚到很多钱的人支持。在中国的环境下，双向筛选后，万一相信你的人很少呢？

许华哲：（大笑）这当然是一个风险。所以我们也不会完全不展示进展，我们规划了很多中间里程碑。

而且我挺惊讶的一点是，最近跟很多投资人聊，我以为他们会问 3 个月、6 个月能拿出什么？但也有一波投资人跟我说：华哲，我不在乎这个，我在乎的是你最后做的是不是那个最大的东西，“不要小瞧我们投资人对未来的梦想”。

晚点：这可能是因为现在具身智能处于投资热潮期，但投资情绪之后会波动。

许华哲：是的。但另一方面，抛开已经看到的大模型，未来足够改变人类社会的事情也很少，大概就是去太空、量子计算、具身智能、可控核聚变。这四件事里，确定性最高的其实是具身智能——虽然也很远，但几乎是确定会到来。

晚点：你们给自己定的里程碑是什么？

许华哲：一年左右，我们办公室里的机器人能在一个家的环境里 “玩起来”，两年后，也就是 2028 年初，已经有人在用我们的机器人在家里做一些事情。到时候可以再录一期访谈。万一打脸了，你来问我为什么没做到。

晚点：那还是希望你做到了。接下来 18~24 个月，你觉得要达成你们的目标，哪些部分是相对确定的，哪些还悬而未决？

许华哲：比较确定的有三件事：数据会往视频方向走，数据量会持续增加；随着数据变大，模型能力一定会变好；大家对家庭机器人的接受度也会越来越高，就像智能手机一样。

不确定的是路径——究竟用什么模型结构把这些数据吃进去？什么本体形态大家最能接受？硬件也是卡点，但是可以攻克，缺什么基本都能造出来或找到，只是时间和投入的问题。

晚点：关于怎么做具身智能模型，你分享过一个思路：预训练配合物理先验。怎么赋予具身模型物理先验？

许华哲：有很多方式，世界模型就是一个很好的物理先验来源——可以把它当骨干网络，可以把它当数据生成器，可以用它预测下一帧再求逆解把中间动作求出来。我们目前倾向于把它当骨干网络，但这块整体还在探索中。

晚点：按照你 “生态的事” 交给生态做的思路，世界模型是你们要自己做，还是行业里其它公司做？

许华哲：不需要从头自己做，有专门的团队在做世界模型。我们的注意力只放在最重要的事上。

晚点：你对实现未来两年的里程碑要投入多少资源，是怎么计算的？

许华哲：取决于数据量。在现有数据量下，一年一到两亿人民币比较合理。但数据量起来后，投入会和大模型差不多，是一个重资源竞争。

晚点：如果 18 到 24 个月后，智能机器人真的开始进家庭会发生什么？

许华哲：大公司也会跳进来。大公司没办法离开主营业务去做新的事情，只能在这里驻扎一个小实验室。但当他们发现这件事有潜力成为新主营业务，他们就会来。所以留给我们的窗口就是这 18 到 24 个月。

最好的会在中国发生，但小心别错过最大的西瓜

晚点：现阶段你最关注全球的哪些同行？你曾在文章中提到，看到 Generalist 和 Pi 的进展令你焦虑。

许华哲：智能方面，有 Pi、Generalist（美国具身智能独角兽公司，主打通用机器人基础模型）、Sunday（美国 AI 家用机器人独角兽公司，主打轮式人形家务机器人）和 Figure（美国人形机器人公司，开发通用人形机器人及 VLA 视觉-语言-动作模型）。Figure 最近发布的整理客厅的视频过于丝滑，我很想去现场看看到底是不是真的，还是说部分遥操的？另外三家的人员背景决定了他们在智能上的进展会比较扎实。

产品设计上，除了 Sunday，我也很喜欢国内傅利叶的 GR-3，白白的很可爱，还有头扁扁的 Fauna 和小鹏的机器人。他们的设计在家庭场景都有可取之处。

晚点：你提到的 Pi、Generalist、Sunday 等都是海外企业，而两年前我们第一次聊时，那会儿是在东升大厦，你说相信 “东升西落” 是你回国的原因之一。为什么现在智能能力上还是和他们有差距？

许华哲：我依然坚信，最好的东西最终会在中国出现。但目前美国创业团队展现出了更好的战略定力。比如 Pi 从第一天起就坚定朝着通用 physical intelligence 的愿景推进，没有急于商业化，也没有中途改方向。除了资金充裕带来的更大容错空间，也和行业氛围有关——如果周围同行都在死磕底层智能，大家就都会更倾向做最本质的技术。

这也是为什么我经常在网上分享一些想法，就是希望国内的行业氛围向更本质的方向靠一靠。如果中国具身智能从业者只做 “铁疙瘩”，而不掌握通用智能的大脑，我们就会错失最大的西瓜，也错过了定义未来的能力。

晚点：目前我们肯定还没有错过这个窗口？

许华哲：当然没有，但我们正处在关键的竞争节点。可能在技术奇点到来时，会发生一些很科幻的事情：大模型开始自己写代码来改进大模型，机器人开始自己拧螺丝制造机器人。一旦智能进化到那个临界点，游戏就结束了。所以我们必须在那之前缩小差距。

晚点：你觉得留给大家的时间还有多久？

许华哲：没有一个精确的时间。就真正达到人类等级的通用智能而言，我认为可能 5 年左右。

晚点：你觉得目前机器人领域有哪些现象不利于 “智能” 的提升？

许华哲：首先是卖数据。很多公司采到数据后会卖给英伟达、Google 这样的巨头。这些数据是智能化的 “弹药”，如果为了账面收入好看或融资，把弹药卖给竞争对手，我觉得这就像《六国论》里的 “今日割五城，明日割十城”，是非常危险的短视行为。

第二个是无脑量产。首先是机器人没有真正的 “大脑” 智能，然后是不考虑真实需求、盲目铺量。其实我很想看到一个指标，叫 “机器人日活”。比如卖出 5000 台，有多少台是被活跃使用？如果只有 20% 是真实使用，而又只有 20% 是频繁使用，那其实挺遗憾的。

最后是机器人跳舞吧。它当然有一定表演需求，但如果像体操运动员一样卷更大幅度的转体，我觉得意义不大，和真正的 “智能” 关系不大。

从清华到伯克利，从游戏到物理世界

晚点：我有一个没什么逻辑的印象：具身智能行业里有很多东北人创业者，比如千寻智能的联创高阳、逐际动力的创始人张巍、Light Robotics 的创始人姜旭。以前可能有一种偏见是东北人创业者没那么多。东北人和机器人之间是有什么亲和性吗？

许华哲：你这个观察未必对，严格统计，这么多具身智能创始人里，东北人的比例未必是最高的。其次 “东北” 很大，涵盖三个省，基数就大。

非要说的话，我觉得东北人比较 physical，很享受真实、具体的生活，比如网上调侃东北人一言不合就动手，当然这是假的。

晚点：你是什么时候开始觉得机器人是你想要长期投入的方向？

许华哲：是博士期间。而我对 AI 的兴趣是高中搞竞赛时就开始了，我自己是搞物理竞赛的，但当时经常和计算机竞赛的小伙伴在机房里看神经网络，空想计算机的极限，觉得未来神经网络可能会做出真正的 AI。

大一时，我在清华电子系参加过一个写 AI 游戏的比赛。当时我尝试用神经网络去写，但完全不好使，最后还是改成传统搜索算法。因为我本身很喜欢打游戏，博士期间还花过 6 到 9 个月全职写一个《星际争霸》的 AI。那时我就想做一个自主决策的 AI 系统，不过还没有明确聚焦到机器人上。

晚点：后来逐渐转移到机器人领域是一个什么过程？

许华哲：博士三、四年级时，我从计算机视觉切入，真正看到神经网络的能力，也参与过自动驾驶项目，发现 AI 确实可以在物理世界里做决策。那时 OpenAI 在用强化学习打 Dota，我也尝试用强化学习做各种游戏。我发现只要肯投入，AI 在游戏里通常都能做得比人强。

但机器人不一样，它挑战更大，影响力也更深远，所以我把它作为更长远的目标。游戏毕竟只服务一部分玩家，而机器人是所有人都会需要的。

晚点：在 2018 到 2019 年左右，也就是你读博三、博四的时候，心境似乎发生了很大的变化。你在知乎上分享过从 21 岁到 30 岁每年生日写给自己的话，那两年的画风突然变得深沉了，当时经历了什么？

许华哲：当时我有一种 “好学生当完了” 的迷茫感。我从小习惯于冲到各个圈层的第一梯队，那时论文发够了，毕业要求也达到了。按线性路径，接着发几篇 paper，读博后，去 Google、Facebook 或者国内找工作，都是很清晰的。

但我开始反思：这样做的意义是什么？我发现大多数科研只是人类进步路上的一点 “噪音”，真正往前推进一步的是少数。

我不想继续制造噪音，也发现自己对住大房子、世俗成功并不感兴趣。我更在意的是，能不能获得极致体验，以及真正帮到更多人。

晚点：这种心态转变也体现在你的生活方式上吗？我看你以前的爱好非常丰富，后来逐渐收敛了。

许华哲：以前我更追求 “嗨”，音乐节、越野跑说去就去。但后来我开始做减法，兴趣慢慢收敛到古典音乐和网球。

它们都涉及大量 “有变化的重复”。表面看是枯燥的过程，但每一次重复都在微调细节，本质上像一个强化学习过程。我不喜欢平面上的发散，更喜欢这种重复但螺旋上升的事情。

至于机器人，它在我心中不是爱好，而是爱和使命。

晚点：有投资人认为好奇心大于成就感的人不适合创业，你会怎么在这两个维度里定位自己？

许华哲：我同时追求好奇心和成就感，但创业需要的是聚焦的好奇心。如果今天做机器人，明天想做大模型，后天又做智能手环，那肯定都做不成。而我的使命已经确定了，剩下的好奇心都会集中在一件事上：怎么把它做成。

晚点：你追求的挑战更大、更有影响力，具体来说是什么？

许华哲：挑战更大，是我一直的习惯，就是当有的选时，我通常会选更难的事。我追求极致的体验，人生的意义就在于体验，如果做的事情太简单，体验就会很差。玩游戏我也是直接选最难的模式。

晚点：保送和高考，你觉得哪个更难？

许华哲：虽然最后结果是保送了，但其实中间比较曲折。当时我因为各种原因没能通过物理竞赛直接保送清华。有两个选择摆在我面前：一是稳妥地保送上海的一所高校，也挺好的学校；二是参加清华自己的保送生考试。父母当时劝我直接保送去上海，但我几乎没怎么犹豫，直接决定再考一次，大不了就回去高考。我会本能地选更难的事，因为做简单的事会大大降低乐趣。

晚点：那 “更有影响力” 意味着什么？

许华哲：这个是围绕我的核心追求产生的，就是帮助更多的人。有个故事是一个小女孩写信问航天局，为什么每年花这么多钱造火箭，而不把钱捐给吃不起饭的人？回信写道：其实若干年前，也有一群人把能买面包的钱拿去研究显微镜，当时看似无用，但后来人类借此发现了抗生素。

你很难在当下判断哪件事绝对正确，但我希望能做发明显微镜、造火箭这样具有长远影响力的事。

技术美在简单、一致，人生想尽力而为

晚点：你刚才描述音乐、网球还有你做研究的过程都是一种美的形式，你的技术审美和偏好是什么？

许华哲：我认为简单是每个技术人员应该都公认的第一性的美。正如爱因斯坦说的：Everything should be made as simple as possible, but not simpler. 我在课题组也常和大家聊，要用小方法解决大问题，这才是最美的。反过来，如果方法极其复杂，最后只能解决一个倒水之类的小问题，在技术上往往是丑陋的。

此外，我也很看重 “一致性”，这个可能有点难描述——我不喜欢各种思路的生硬拼凑。如果用知识图谱式的方式做事，下层就不应该有深度学习的模型，而是逐层拆成一个巨大无比的网络；而如果相信端到端，那就应该让它从宏观到微观层面在逻辑上统一协调。

晚点：你觉得有用在你的审美里是什么位置？

许华哲：有用是一个结果。

晚点：回顾 2025 年，你觉得有哪些重大的技术进展对具身智能行业产生了深远影响？

许华哲：2025 年的成果非常多。首先，Pi 的系列工作是一个核心推动力；其次，Generalist 数据集的规模化让我们看到了 scaling law 在具身领域的威力。然后一大批 Embodied VLM（具身视觉语言模型）的涌现，让机器人更理解空间和语义。

强化学习方面，我自己有一个工作：针对 7 个特定任务测试了 900 次，成功率达到 100%，大家都很兴奋。虽然这 7 个任务还没有完全整合在一起，但后续可以沿着这个方向继续做新的工作。

晚点：目前这个领域出现了像 2017 年 Transformer 那样开创性工作吗？

许华哲：这需要时间检验。很多学术会议会评 “时间检验奖”，很有意思的一点是，很少有当年的最佳论文后来拿过这个奖。比如影响力很大的 NeRF（神经辐射场技术）当年也没拿到最佳论文。2025 年可能有类似开创性的成果，但现在谁也评不出来。

晚点：评价科研成果的价值连科学家都觉得难，未来如果用 AI 来做科研，它能分辨出哪些是真正帮助人类前进的 “砖块”，哪些是大部分的 “噪音” 吗？

许华哲：评价论文是否达到一般水平比较容易，但判断其深远影响比较难。论文你可以认为是个 “产品”，可以包装得非常精良，再配合有价值的内容，很容易在当年获得好名声。但真正的好东西是试出来的，这和创业很像，最后试出来有用的往往不是最初被看好的那个。

晚点：你做过或参与过的成果里，哪个是你最骄傲的？

许华哲：下一个。

晚点：这是标准答案，这个不算。

许华哲：我很喜欢的是机器人包饺子的一个项目：从擀面到包馅，是个长程任务。当时是采用世界模型加上各种工具使用，搭建了一个大系统的方案，挺有挑战性。

然后 DP3，是我们团队将三维视觉与扩散模型结合的工作，取得了不错的效果。还有刚才提到的强化学习成果。

再就是我们课题组一个新的远程触觉研究。比如人在北京，控制上海的一台带触觉传感器的机械臂去摸东西，北京这边可以感受到物体的软硬、粗糙程度和形状。我们用这个尝试做了远程乳腺癌的触诊，但这只是一个实验，不是真正意义上能用。它还做不到完全像人手，但已经能实现我刚提到的那三个维度。至于更细腻的质感和温度，目前还很难模拟，我们只是开了一个头。但我蛮喜欢这个事情。未来也许机器人会上火星，我们可以在地球上摸摸火星上的东西。

晚点：你现在除了创业，也还在继续做技术分享和访谈内容。这种持续输出的动力是什么？

许华哲：对我来说，做内容其实是一种放松。其次，让信息更透明，帮助更多人获取需要的信息，也是我的追求。我经常看到网友说，“如果不是通过这个平台，我永远也听不到这样的故事。” 这种反馈让我觉得很值得。

另外，我们做的是 To C 业务，这些来自用户的真实评价，对我们打磨产品也很有帮助。

晚点：你现在自己带课题组做前沿探索，同时公司也要做主线研发。你的精力会怎么分配？

许华哲：本质上需要解决的都是通用的物理智能，也谈不上如何分配精力。所以怎样能最快、最有效地接近物理智能，我就怎么去做。

晚点：你最近主要在思考什么问题？或者看什么书？

许华哲：最近想得最多的是公司该怎么走，主线和节奏是什么样，抽象的思考会少一些。

书最近读了哈萨比斯的传记，非常有共鸣。我很喜欢书中关于 “怎样算过了尽力的一生” 的描述：人生就像跑马拉松，冲过终点线时最好能立刻跪下；更好的是你被抬进医院，但没有死掉，这跟我的人生观很像。马拉比笔下的哈萨比斯，可以说是所有追求 AGI 的人的缩影，展现了一种近乎虔诚的状态。

晚点：作为创业者，你会担心自己缺少某些特质吗？

许华哲：不是特别担心，因为你很难定义什么是好的创业者。你可以木讷，可以乐观或悲观。我们看到的很多企业家都很不一样，并没有某种绝对必要的特质。

晚点：你怎么预估创业的挑战和难度？

许华哲：挑战肯定是足够大，这也符合我的决策思路：去做挑战更大的事情，成功概率也一定很低。不管是已经名声在外，还是刚刚开始，我觉得胜率是差不多的，都很低。

所以关键是：我们有没有尽全力、做到极致体验？有没有为世界创造一些东西？最后如果做成了，这些问题都有比较好的答案，我觉得就够了。

晚点：这半年的创业经历，让你发现了自己哪些不一样的地方？

许华哲：我觉得找回了曾经的自己。其实我从高中开始就很想创业，只是后来越做越学术，也没想过自己会读博士、做博后，最后成为大学老师。

现在创业可能会从早上 8 点半工作到凌晨 12 点。这种满负荷、高能量的状态让我很快乐，因为是我想做成一件事，然后主动做，而不是别人让我做。

晚点：到今年 8 月写生日感言或者年底做总结时，你希望自己和公司处于什么样的状态？

许华哲：个人生活上，我希望我的娃那时候已经会说话了。

公司层面，我希望到时已经组建起一个很不错的团队，并且真正造出了一些东西。现在办公室还是一片荒芜，只有地板，我期待那时能带着大家跑出一个小小的雏形。

晚点：破壳而生了？

许华哲：点题了。

题图来源：晚点

- FIN -

菜单

分享

对话许华哲：具身智能不是机器人学，不是自动驾驶，是世界上的新物种

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业