lch
发布于 2026-05-25 / 0 阅读
0

融资数亿元,我们和贝塔无限刘武龙聊了聊具身系统创新

  带着十余年华为AI系统工程的全栈经验。

    作者丨齐铖湧

    编辑丨林觉民

                                                                                                       

具身智能赛道正经历一场深刻的分歧。

传统机器人派虽然能搞定机械控制的精密操作,却在通用泛化上步履维艰。不久前,大批自驾背景的大佬顶着耀眼的融资光环入场,拿着规控那套,把路径规划、定位精度拉满,一度以为自己是 “降维派”,但在交互上却非常僵硬。

技术路线同样不够收敛,VLA 的黑盒困境、世界模型的虚实隔阂、数据飞轮的规模焦虑都还存在。

在此背景下,AI 科技评论希望找到具身新晋创业团队和新的技术思路。这次对话的是前华为加拿大 AI 研究所所长刘武龙。离开华为后,他创立贝塔无限,一头扎进混沌的具身智能赛道。贝塔无限刚刚宣布完成种子+轮融资,由世纪华通与和利资本联合领投,毅达资本、南山战新投等知名机构跟投。距离上一轮融资完成仅过月余,两个月累计数亿元入账,进展十分迅速,体现了资本对刘武龙及贝塔无限团队的认可。

刘武龙的履历横跨多个技术周期:华为加拿大 AI 研究所所长,与 Hinton、Bengio 等深度学习先驱团队深度合作;后归国主导 ADS 2.0 量产交付;继而接管盘古大模型工程团队,主持昇腾万卡集群调优。

刘武龙的特殊之处,在于他是业内极少同时打通自动驾驶全栈、大模型系统工程、个性化 AI 产品、硬件量产交付的人,刘武龙并不是“纯技术思维”,相反,具备极强的“商业思维”和“消费者视角”。他没有选择追逐人形热点,也不迷信单一模型的力量,而是用一套华为式的系统工程思维,迁移到 “能走进家庭的具身大脑与机器人”。

在这场对话里,他会分享具身大脑的真实架构、数据飞轮的行业真相、消费级机器人的生死命题,以及大厂、初创、人形、四足、自驾系、大模型系的终局判断。

以下是刘武龙与 AI 科技评论的对话,经编辑整理:

图片

01


离开华为

AI 科技评论:你在华为的经历非常丰富,先聊聊你的背景?

刘武龙:主要是四段经历。

第一段是 2016 年,我们在加拿大把华为第一个自动驾驶原型机跑通了,2017 年回到中国,一直在搞研发孵化,奠定了华为 ADS 的技术底座。

第二段是 2020 年到 2023 年初,我在加拿大担任华为 AI 研究所所长,负责所有 AI 团队,规模 200 多人,分布在蒙特利尔、多伦多、埃德蒙顿,核心是跟三个国家级 AI 实验室合作,跟 Richard Sutton(强化学习之父)、Yoshua Bengio 和 Hinton 三位很熟。那段时间我带着团队做了两件事:一是自动驾驶持续打榜,拿了一堆世界第一;二是预训练大模型。我们是世界上第一个做阿拉伯语大模型的,而且几千万美金卖给中东某国,做教育对话问答,可以算是第一个大模型商业变现,那时候 ChatGPT 还没火。

第三段是2023初被临时叫回国准备接管整个华为智能驾驶产品部,同时负责首个不依赖高精地图ADS2.0版本的量产交付,助力阿维塔12、享界等华为系车型大卖。

第四段是2024年初又被公司临时调去负责大模型系统工程,组建数百人团队几乎从0到1补齐昇腾万卡集群训推系统,我们团队兄弟们应该是针对国产万卡集群最精通的了。

AI 科技评论:为什么在 2026 年这个节点选择出来创业做具身智能?

刘武龙:我在华为干了十几年,最核心的是把两件事彻底跑通了:一件是自动驾驶从早期孵化、路测、迭代,一直干到规模量产和业界领先;另一件是大模型从预训练、后训练,到昇腾万卡集群的工程化落地。

做到后面我越来越清晰一个结论:自动驾驶解决的是 “车怎么在物理世界安全移动”,大模型解决的是 “机器怎么理解和思考”,而具身智能,是把思考、感知、移动、操作、记忆、个性化全部捏成一个能在真实世界活下来的系统。

华为把我练成的不是单一算法专家,而是系统工程型选手。具身智能恰恰最吃这个:它不是拼一个模型多强,而是拼感知、决策、控制、记忆、个性化、数据回流、硬件适配、产品定义、商业化一整套闭环。这套组合拳,我在华为十几年里,刚好全练过。

更关键的是,行业现在走到了必须落地的拐点。大家都在秀 Demo:擦桌子、拧瓶盖、叠衣服,看起来很热闹,但没人回答最朴素的问题:机器人怎么进家门?用户为什么愿意买单?怎么越用越聪明?怎么形成商业闭环?我出来创业,就是要把这些细节串联起来。

02


具身三派路线之争

AI 科技评论:您怎么看现在具身智能的技术路线分化?市面上有三股力量 —— 自动驾驶背景的人、传统机器人背景的人、大模型背景的人。你似乎三边都占?

刘武龙:我是国内少有的三边都深度做过的。所以我组团队的时候,特意把这三拨人都凑齐了:有大模型的人,有自动驾驶的人,有做个性化 AI 系统的,还有最新玩 VLA 模型比较转的年轻人。

AI 科技评论:接触下来,你发现这三拨人思维方式有什么本质冲突?

刘武龙:冲突不小。做传统机器人的,脑子里是控制论、动力学方程、精确的轨迹规划;做大模型的,上来就想 “我能不能一个模型端到端解决所有问题”;做自动驾驶的,特别是经历过量产交付的,第一反应是 “这玩意儿怎么冷启动、怎么收集数据、怎么迭代闭环”。我们的团队在弥合这些冲突。

AI 科技评论:外界把智驾出来做具身的创业者统称为 “智驾降维派”,你认同这个标签吗?

刘武龙:其实智驾团队,很难做好消费级具身智能。这不是能力问题,是问题维度完全不一样。自动驾驶的场景是高安全约束、封闭道路、几乎无复杂操作、人车弱交互;而具身智能面对的是开放家庭环境、几十自由度柔性操作、人机强交互、长时记忆、个性化需求。场景不一样,无法实现降维打击。

另外我不觉得自己是 “智驾降维”,我是自驾经验和大模型结合的升维。我见过智驾出来的团队,习惯用规控那套做机器人,路径规划做得极细、定位精度拉满,但交互很僵、不会看人脸色、不懂用户习惯,最后产品根本没法用。因为消费级机器人不是车,它是 “活的伙伴”

AI 科技评论:现在行业天天讲 “具身大脑”“具身基座模型”,概念满天飞。从工程和落地角度,你给一个最清晰、最不玄学的定义。

刘武龙具身大脑 = 负责理解与记忆的 “大脑” + 负责高频动作的 “小脑” + 用于推演与优化的世界模型 + 全时空多模态记忆系统。它不是一个大模型,而是一套能在物理世界闭环生存的操作系统。

而真正具身产品化的落地,依赖一套从数据到模型、从硬件到OS的的复杂系统架构。这也是我们所提的四维一体Beta Matrix架构的出发点。

AI 科技评论:现在市面上很多公司在推 VLA 端到端模型,你们走哪条路线?

刘武龙:现在行业两条主流路线,我都觉得不完整:一条是行业普遍采用的两段式解耦架构—— 上层依靠 VLM 等大模型负责语义理解与任务规划,下层搭配独立的控制模块执行物理动作,这套方案交互顺畅、理解能力强,但模型层与控制层割裂,会出现动作不准、时延偏高、控制飘移等问题,真机很难稳定跑起来;另一条是 VLA 端到端路线,看似架构简洁统一,却泛化能力极差、真实场景数据极度稀缺,也很难扩展支撑几小时的长程复杂任务。

我们目前还是两段式逻辑:统一基座 + 大小脑分层。用一套主干网络做底层特征,上层是大脑,负责意图理解、长程规划、个性化、记忆;下层是小脑,负责毫秒级控制、抓取、平衡、避障;中间用世界模型做推演,用强化学习持续优化。

AI 科技评论:为什么不直接端到端?VLA 看起来是更先进的范式。

刘武龙:VLA 是趋势,但现在还不成熟。你看 Figure 的 Helix,号称端到端,但其实是双系统 —— 一个系统处理语言和视觉,另一个高频输出动作。本质上还是分层。

完全端到端的问题在于,你把感知、认知、控制全揉在一起,虽然简化了架构,但牺牲了可解释性和可控性。特别是在家庭场景,安全是第一位的。如果一个模型黑盒输出一个动作,你很难保证它在极端情况下不犯错。而且 VLA 现在的数据效率太低,需要海量真机数据,但家庭场景的数据几乎没人有。

AI 科技评论:很多公司也在提 “大小脑”,你们的差异到底在哪?

刘武龙:大部分公司的大小脑是 “两层皮”:大脑是一个大模型,小脑是一套独立的控制模块,中间靠协议拼接,信息割裂、延迟高、没法实时打断。我们有两个核心差异:一是在同一个基座模型中,大小脑联合训练,网络结构和执行频率做内部分层,但训练推理是端到端的;二是兼具用户交互能力和具身任务能力的统一大脑,更加适配随时打断、实时重规划的消费级场景。

简单说,一套网络,既能干 “听懂你说话、记住你习惯、规划几小时任务” 的大脑事,也能干 “毫秒级稳手、动态避障、摔倒自恢复” 的小脑的事。能被实时打断、能边交互边规划,才是家用机器人该有的样子。

这件事,我们在 2025 年下半年就明确并落地,现在已经变成行业共识。

AI 科技评论:有人说世界模型在具身是玄学?我发现你在自动驾驶里也没用这一块,为什么在机器人里要用?

刘武龙:结合我在自驾实战经验来说:纯视频预测型世界模型,没用;能和强化学习结合、用于推演动作序列的世界模型才是核心

自驾里我们不用,是因为自驾的环境是规则化的,安全冗余极低,不允许模型在车里 “瞎想”;但机器人不一样,家庭环境千变万化,试错成本低,用世界模型做 “心理演练”,能把样本效率提升一个数量级。即使机器人没见过这个场景,也能靠推演做出靠谱动作。这种 “主动思考”,在具身领域是非常关键的。

03


行业都在卷预训练数据,但我觉得思路错了

AI 科技评论:全行业都在抢数据、建数据工厂,你怎么看数据这件事?

刘武龙:行业现在集体卡在一个死胡同:所有人都在卷第一阶段 —— 离线预训练,把泛化从 70% 卷到 80%,但真正决定产品能不能用的,是第二阶段 —— 场景自适应与持续学习,把 80% 拉到 99%。

我把具身数据分成三层:第一层是通识底座数据,把模型基础能力拉到 80 分,这一步大家都能做;第二层是场景自适应数据,机器人在真实家庭里看人演示、自主试错、数据回流、在线迭代,这一步才是拉开差距的关键;第三层是个性化记忆数据,用户习惯、家庭布局、行为轨迹、长程任务,这一步是壁垒中的壁垒。

这里我抛一个暴论:具身智能的终局比拼,不是 80% 和 81% 的内卷,是最后 20% 的长尾与个性化。

AI 科技评论:家庭数据采集隐私敏感、规模难起,你们怎么解决?

刘武龙:我们坚决不走两条路:一是不进家庭偷拍,二是不建封闭数据工厂。

我们的方案是 “类家庭可控场景众包”:高端民宿、酒店式公寓、中介空置房。这些场景和家庭几乎一样,又存在租客真空期,保洁整理本来就要进场。我们只需要给工作人员配轻量化穿戴采集设备,每小时多补一点报酬,愿意干的人非常多。

我们还自研了三指轻量化采集设备,成本只有国外方案的 1/5,轻便、不干扰干活、数据质量极高。目标很明确:30 万–50 万小时高质量家庭操作数据,不靠堆人、不靠烧钱,靠商业逻辑跑通规模。

纯虚拟仿真数据我们现阶段不用,因为sim-to-real gap 永远存在,而且建一个高质量物理仿真器,需要的数据比训一个具身大脑还要多一个量级,完全不划算。

04


 别一上来就猛干家务,那是“死路一条”

AI 科技评论:聊聊产品。现在市面上很多公司一上来就说要做家庭服务机器人,能做饭、能打扫、能照顾老人。您的切入口是什么?

刘武龙:那是 “死路一条”。你算笔账:一个家政服务人员一小时 30 块钱,你做一个机器人卖几万块,用户会算 ROI 的。而且在你达到能完全替代家政人员之前,没有人会为这个买单。

AI 科技评论:你们怎么切入家庭消费场景呢?

刘武龙:结合第一性原理和商业实际的排除法。

从第一性原理来说,机器狗能提供情绪价值和解决户外场景,但是没办法进化成家庭通用机器人,最简单的,没有上肢和实际操作能力,甚至不能称之为“过渡产品”;从商业实际角度,纯人形双足机器人现阶段也不具备真实落地能力,无法普及,C端消费者不会买一个大号铁疙瘩。

反过来想就很清晰了,它应该是一个“类人”的家庭成员,安全性、接受度、移动性、操作能力需要结合在一起。

AI 科技评论:怎么理解?

刘武龙:任何新物种的落地都遵循客观规律。我们团队,无论在华为还是字节,都打造过多个爆款的全生命周期创新产品。

首先要安全,并有功能上的惊喜,才能获得早期尝鲜者;其次在系统层面要和现有的家庭客观环境融洽,人均建筑面积40平左右,放不了空间占用等同人形的机器人;最后是智能化水平和操作能力,要能产生情感连接,也能持续学习和进化。

AI 科技评论:所以你们第一款产品准备做什么?

刘武龙:现阶段还得保密,但工业设计层面足够惊艳。

它不是工具型,是“养成系” 的伙伴。为什么迪士尼的雪宝能火?因为它可爱、有情绪价值。消费级机器人不是越像人越好,是越能融入生活越好。

AI 科技评论:那你的冷启动策略是什么?

刘武龙:产品价值会在客户使用中能分阶段、逐步释放,且有一点需要强调,必须是真实的价值,不能是技术人员的自嗨。

第一步,让用户把机器人当成“家里的高阶伙伴”,先接受它存在。第二步,从最轻的操作开始:递拖鞋、开门、收垃圾,不贪多、不炫技,把高频小需求做到极致。第三步,让机器人学会调用家里已有的智能设备,洗衣机、扫地机、冰箱、灯,它做“总指挥”。第四步,把这些能力串成长程任务,洗衣、拖地、整理,变成真正的物理 Agent。

AI 科技评论:多数玩家好像都卡在第二步?在具体动作上发力过深?

刘武龙:实验室和家庭是两个场景,机器人和电器不是对立的关系。我常对团队说,我们首先要热爱生活,一头扎进实验室是做不好消费级机器人的。

AI 科技评论:要做到这样,具身基座模型怎么设计?

刘武龙:三个能力:可记忆、可个性化、可长程任务。能记住用户习惯、家庭布局、几天前的任务、你的偏好变化。现在很多机器人,你 10 分钟前说过的话,它就忘了,这根本没法用。

个性化反馈系统,用户的表扬、打断、沉默、甚至不耐烦,都是反馈信号,帮机器人迭代自己的行为和偏好。

单基座统一大小脑,现在 GPT-4o、Gemini、多模态豆包都在往这个方向走,但我们更早把它用到真机上。消费级机器人,能被打断、能实时响应、能边聊边干,是底线体验

05


具身团队谁能笑到最后?

AI 科技评论:怎么看当前的具身格局,大厂,智驾系,运动控制,谁能先跑出来?

刘武龙:单一的路线都跑不出来,但大家也都在进步。纯大厂资源当然多,但是人均卡数和试错速度不足;纯人形的“终局”故事好融资,但短期难落地;纯自驾缺乏C端思维,可能会陷入工程化思维定式;纯大模型则缺乏硬件和工业设计能力。

具身智能是系统复杂度最高的工业产品。我们经常讲AI和Robotics的进化,更重要的其实是自己的进化。

我们具备复合能力的基因和全栈团队的基础,但也肯定有个试错和迭代的过程。这就是为什么叫做Beta Infinity,起点远没有加速度重要。

如果一定要说谁能跑出来,一定是同时懂大模型基座 + 自动驾驶闭环 + 个性化 AI + 硬件工程 + 商业化落地的系统工程团队。

AI 科技评论:目前投资机构的反馈如何?

刘武龙:当前投资圈的朋友们非常积极热情,但我们制定了非常清晰的融资节奏,每轮都close得很快,确实很难照顾到太多投资机构朋友们,也趁机给大家说声抱歉。当前阶段主要还是想一方面以最快速高效的方式获得匹配我们研发节奏的足够资金,另一方面还是要把主要精力去投入打磨技术和产品。

AI 科技评论:现在投资人越来越看重商业化,你怎么回答他们?

刘武龙:具身智能必须技术先行 + 产品闭环 + 商业落地三条腿走路,缺一不可。

短期的话,用小机器人跑通 C 端冷启动,快速形成数据飞轮,先立足。中期,把具身大脑方案对外授权,实现 “一脑多体”,赋能行业,赚技术钱。长期来说,成为家庭物理 Agent 的操作系统级公司,定义行业标准。

先活下来,再长大,最后定义规则。

AI 科技评论:最后,来几个暴论吧。

刘武龙具身不是炫技,是能在物理世界活下来的系统工程。数据飞轮的关键不是采得多,是真实场景、持续回流、在线优化。能走进家门的那个 “机器人伙伴”,一定是先把产品、工程、商业全部想清楚的人做出来的。

//

推荐阅读

起底智元机器人,谁在推动一个庞然大物向前


达闼科技陨落一周年:具身独角兽的消亡史

图片

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。