
5 月 19 日,AMD AI 开发者日于上海前滩香格里拉酒店成功举办。本次活动聚焦 AI 开发全链路技术交流,清华大学电子工程系教授、无问芯穹发起人、IEEE Fellow 汪玉教授与 AMD 董事会主席及首席执行官苏姿丰博士,AMD 高级副总裁、大中华区总裁潘晓明,AMD 高级副总裁、计算与图形总经理 Jack Huynh,零一万物创始人&CEO、创新工场董事长李开复博士,阶跃星辰联合创始人 & CTO 朱亦博博士共聚一堂,与多位产业与学术领袖、AI 开发者及 AMD 工程师一起,围绕大模型前沿技术如何驱动行业变革、促进科技创新及引领未来发展等议题展开了深入探讨。

模速空间入驻企业无问芯穹与 AMD 积极推动开源技术生态建设,已在云、边、端全链路取得阶段性技术成果与突破。在云端,双方共建强化学习技术基座,为具身智能场景奠定算法基础;在边缘侧,通过算子自动生成与推理加速,实现模型在多种 AMD 硬件平台上的高效运行;在终端侧,实现数据本地脱敏、端云算力协同及智能模型调度,加速 AI 在 Box 及具身机器人等真实世界场景中的规模化落地。活动现场,无问芯穹上海总经理、端侧总裁曾书霖为苏姿丰博士介绍合作成果。
01 云侧共建强化学习技术基座,实现渲训推一体化
为使机器人具备类似人类的学习运动与抓取等能力,需为开发者构建强大的“虚拟训练场”。为此,无问芯穹将 AMD 算力和 RLinf 强化学习框架深度耦合,打造面向具身智能的渲染训练推理一体化平台,用于生成机器人的核心行动算法。RLinf 在硬件层实现了统一抽象,可与 AMD GPU 算力深度协同,支持具身强化学习任务在 MI 系列、Radeon 系列等 GPU 平台上的高效运行。目前,该平台已完成基于 LIBERO 仿真环境与 OpenVLA-OFT 模型的具身强化学习训练验证,具备从仿真渲染、强化学习训练到模型推理部署的完整闭环能力,为具身智能算法研发提供稳定、高效的基础设施支撑。

RLinf 是无问芯穹联合清华大学、北京中关村学院等推出的面向具身智能的大规模强化学习框架,目前已被多个学界与工业界具身智能领域的知名团队采用,成为具身智能领域最受欢迎框架之一。通过引入 M2Flow 这一宏观到微观流变换的新型强化学习编程范式,RLinf 将可编程的逻辑工作流与高效的底层优化解耦,兼顾灵活性与高效性。
在 v0.1 阶段,RLinf 已打通仿真、训练与推理的一体化流程,统一支持多种主流的具身大模型、强化学习算法与仿真器。通过系统性优化,其在 GPU 利用效率和整体训练吞吐上显著领先,实验评测中最高可实现 1.27 倍的整体效率提升。在迈向真实世界的 v0.2 阶段,RLinf 将能力边界扩展至物理世界,支持全异构、全异步的真机强化学习。其通过自适应通信平面和统一硬件接口,实现了 “像使用 GPU 一样使用机器人”,并支持跨域多机部署。同时,系统通过训推异步与人在环功能,为可扩展的真实世界强化学习提供了系统级基础设施。
02 云边端算子生成与软硬协同优化,实现 AI 模型高效推理
在云端训练出来的算法,需适配不同终端硬件平台才能高效运行,针对不同芯片架构导致的效率低下问题,基于智能体的自动编译技术发挥了关键作用。无问芯穹结合了 AMD 开源的 ROCm 软件栈和自研的 KernelMind 智能框架,构建了自动化转译优化能力。依托无问芯穹 Mizar 推理加速引擎,能够自动将云侧训好的模型,针对 AMD 不同型号的硬件,如 MI 系列、Radeon 系列或 Ryzen AI 平台,生成最优化的部署代码,实现高性能、低功耗的推理运行。

KernelMind 是由 AI Agent 驱动的端云一体推理加速优化平台。在工程实践过程中,KernelMind 通过多智能体协同机制,让负责“思考”的策略智能体分析性能瓶颈并规划优化方向,让负责“执行”的代码智能体生成和改写 ROCm/HIP 内核代码,再由负责“验证”的评审智能体在真实硬件环境中完成编译、运行、正确性校验和性能评测。通过“思考-执行-验证-沉淀”闭环,KernelMind 将过去依赖专家经验的算子优化流程,转化为可自动迭代、可持续积累经验的智能优化流程。
无问芯穹 Mizar 推理加速引擎则在更底层整合并行解码、图算融合优化、异构内存调度与 KernelMind 的算子优化能力,面向端边云多场景提升推理速度,降低功耗与内存占用。在 AMD MI 系列真实硬件评估中,KernelMind 已覆盖 GQA Attention、MLA Attention、GDN、GEMM 等关键推理算子场景,多类工业级算子任务取得约 1.5 倍-2.8 倍的加速表现,全面体现面向 AMD 硬件生态的工程化落地价值。
03 构建端云协同的智能闭环体系,推动 AI 走向物理世界
端侧,面向物理世界需要具备真实环境中的感知与响应能力,也需满足数据隐私保护要求。依托 AMD Ryzen AI Max+ 395 平台的异构计算架构与高带宽的统一内存架构,无问芯穹基于 InfiniClaw 端云协同架构,构建了面向物理世界的本地智能推理体系。通过多模态模型编译优化、异构算子融合、动态模型路由及端云协同调度等核心技术,系统可在终端侧实现本地隐私脱敏、本地多模态推理及云端协同生成能力,支持 VLM、VLN、VLA 等多种具身智能模型的高效运行与协同推理,加速 AI 在 Box 及具身机器人等真实世界场景中的规模化落地。

在本地多模态脱敏能力上,无问芯穹独创“本地脱敏 - 云端处理 - 本地回填”的端云一体三段式安全脱敏推理方案,实现了真正意义上的隐私数据绝不上云。用户输入的全模态数据先经本地多模态大模型与安全知识库自动识别并替换敏感信息,生成完全脱敏的请求;随后无缝接入无问芯穹平台低成本调用 GLM-5、Kimi-K2.5 等云端大模型完成推理与生成,云端始终无法接触原始隐私数据;最后在本地由隐私重构引擎精准回填被替换的信息,实现隐私数据零出域与结果语义无损恢复,达到“数据不出盒、能力不打折”的效果。
在智能模型路由能力上,InfiniClaw 无缝接入无问芯穹平台低成本调用 GLM-5、Kimi-K2.5 等云端大模型完成推理与生成,通过任务拆解、全局编排、复杂决策、统一验收等能力,实现大小模型智能路由,Token 使用成本降低 70%。
04 联合共建开发者生态,赋能“AI 生产力”新纪元
无问芯穹联合 AMD 已完成从云端渲训推、边端算子自动生成与推理加速到终端设备实时推理的全链路开发闭环。未来,无问芯穹将逐步开源“云-边-端”全链路开发工具链,并专项打造面向 AMD 平台的具身智能开发者工具链。

清华大学电子工程系教授、无问芯穹发起人、IEEE Fellow 汪玉教授表示:“开源的本质在于构筑一个双赢的生态系统,我的团队所秉持的理念与 AMD 的 ROCm 开放愿景高度契合,致力于赋能所有参与者。与 AMD 携手,我们正为下一代智能系统构建开放的基础设施。”
未来,无问芯穹将与 AMD 持续共建技术开源生态,目标是为开发者提供“智能体自进化、云边端一体化”的完整开发工具链。作为 AMD 重要的战略合作伙伴,无问芯穹将继续与 AMD 依托互补优势,开展联合研发,持续构建开源生态,简化大模型应用开发与部署流程,为企业及开发者提供更强的差异化竞争优势,加速人工智能生态系统的建设。
图文来源:无问芯穹
