lch
发布于 2026-04-09 / 0 阅读
0

GO-2具身基础模型:填补语义与执行之间的鸿沟!

图片

图片

图片
温馨提示:扫描文末二维码,加入知识星球,免费下载2700+行业报告(包含海外投行报告);商务和研究咨询合作请联系16620948826(同微信)
具身人工智能的核心挑战从来都不是“思考”,而是将思考转化为可靠的动作。尽管业界已经涌现出大量能够规划复杂任务的视觉-语言-动作(VLA)模型,但这些系统在执行过程中常常出现问题。这种“语义-执行鸿沟”指的是高层推理信号与现实世界的运动指令脱节,导致错误累积和任务失败。
今天,智元机器人发布了Genie Operator-2(GO-2) 。GO-2基于第一天发布的AGIBOT World 2026数据集和昨天发布的Genie Sim 3.0基础设施,代表着向“推理与行动的统一”这一根本性转变。

智元机器人 G2 硬件平台执行了一项复杂的倾倒任务,展现了 Genie Operator-2 (GO-2) 基础模型所实现的高精度操作能力。GO-2 弥合了“语义-执行鸿沟”,使机器人能够将逻辑推理转化为稳定可靠的物理执行。这项在人工智能周第三天发布的突破性成果,标志着模型从单纯感知世界向能够可靠地对世界做出反应的智能体转变。

行动空间中的推理:行动链式思维
传统的机器人模型通常试图将感觉输入直接映射到原始运动指令,这种“黑箱”方法缺乏透明度和鲁棒性。GO-2引入了动作链思维(Action-CoT)推理框架,该框架已被CVPR 2026会议接收。
GO-2并非直接执行任务,而是生成一个宏观计划——一系列“动作意图”,作为任务的心理模拟。通过将复杂的指令分解成有序的逻辑阶段,机器人确保每一个物理动作都基于特定的意图。这使得系统能够在执行长周期任务(例如在厨房中导航以补充冰箱物品)时保持连贯性——智元机器人在其AGIBOT WORLD 2026数据集中对此类场景进行了广泛的记录。
异步双系统架构
为了应对物理世界固有的噪声,GO-2采用了异步双系统架构(将在2026年 ACL 会议上展出)。这模拟了高级认知规划和反射性运动控制之间的生物学区别:
系统 2(语义规划模块):以较低的频率运行,充当“总指挥官”。它利用渐进式改进来生成结构化的、可执行的动作序列。
系统 1(动作跟随模块):以高频率运行(与Genie Sim 3.0的 1000Hz 物理能力相匹配)。它充当“敏捷执行器”,接收高级意图并执行残余细化,以实时补偿环境干扰。
通过在训练过程中采用“教师强制”机制,智元机器人确保系统 1 与系统 2 保持严格一致,即使推理信号不完美。
GO-2 异步双系统架构的技术示意图。左侧的语义规划器(图中的系统 1)通过视觉语言模型处理高级指令,以低频生成宏意图。中间的意图缓冲区管理解耦的异步流程。右侧的动作精炼器(图中的系统 2)使用视觉编码器和精细动作头生成高频连续动作,以实现精确的姿态对齐。顶部的对比图显示,“Libra-VLA”与单体模型相比,实现了更均衡的学习状态。
GO-2异步双系统架构通过将低频语义规划与高频动作执行解耦,弥合了语义与执行之间的鸿沟。语义规划模块(系统2)生成结构化的高级动作序列,然后由动作跟踪模块(系统1)将其转换为特定的控制信号,以补偿环境噪声。这种“推理与行动的统一”确保了高级逻辑与现实世界运动指令的高度一致性。
为物理人工智能设定新基准
这种统一架构带来了行为性能的显著提升。在直接对比测试中,GO-2在多个关键指标上都超越了现有的行业标准,例如NVIDIA的GR00T和π0.5:
Four bar charts comparing the success rates of GR00T, pi0.5, and GO-2 models. On the LIBERO benchmark, GO-2 leads with 98.7%. On LIBERO-Plus, GO-2 leads with 86.6%. On VLABench, GO-2 leads with 47.4. On GenieSim, GO-2 leads with 82.9% compared to 77.5% for pi0.5.
能基准测试表明,GO-2在各种测试环境下均展现出卓越的性能。该模型在 LIBERO任务上的平均成功率达到98.5%,在包含显著干扰的LIBERO-Plus环境中,零样本成功率也达到了86.6%。此外,GO-2在VLABench上展现出优异的跨类别泛化能力,并且在仅使用仿真数据训练后,在真实世界测试中也取得了 82.9%的成功率。
这些数据表明,该模型并非仅仅是实验室里的一个奇特装置,而是一个可以部署的系统。这一成功很大程度上归功于为GO-2提供数据的工业级数据管道,该管道利用G2硬件平台的7自由度扭矩传感臂和360°激光雷达覆盖范围来捕获高保真度的“物理先验信息”。
从模型到代理:记忆前沿
随着智元机器人在物理领域逐步实现通用人工智能 (AGI),其关注点正转向长期智能。除了GO-2机器人之外,该公司还展示了OpenClaw 记忆系统。该系统允许机器人存储并重用先前交互的推理轨迹,从而使其能够“记住”并随着时间的推移优化自身性能。
GO-2与Genie Studio集成,支持跨数千个机器人的大规模分布式训练,将任务启动时间缩短至几分钟,并将训练效率提高约10倍。该生态系统将机器人从脚本化的机器转变为不断进化的具身智能体。
资料来源:humanoidsdaily


免责声明

1、我们整理、翻译和转载此文出于传播更多资讯之目的,不代表本号观点,亦不构成任何投资观点,由此做出的投资决策与本人本文无关!
2、本文所用的视频、图片、文字如涉及作品版权问题,请第一时间联系小编:16620948826(同微信),我们将立即删除,无任何商业用途!


图片
扫描下方二维码,添加小编微信
申请加入人形机器人行业交流群


图片


# 扫描上方二维码,添加小编微信 #

# 申请请备注公司+姓名+职位