lch
发布于 2026-05-22 / 0 阅读
0

Harness才是未来:CMU、耶鲁等发布重磅Harness综述

专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!

把同一个大模型塞进不同的智能体框架系统,表现完全判若两模。

决定一个智能体到底能不能在真实世界打工的,其实早就不是模型本身,而是包在模型外面的那层壳。

模型只是引擎,外面那圈防护栏、仪表盘、记忆库和工具箱,才是决定智能体能跑多远的核心硬约束。

上个月,上海交大等发布了第一篇Harness综述:智能体的尽头是Harness基建!上海交大深度解读Harness。

刚刚,卡内基梅隆大学、耶鲁大学、亚马逊等机构的顶尖学者,又联合发布了一篇重磅Harness长文综述。

研究团队深度拆解了开源社区170多个代表性项目,提出了完整的ETCLOVG七层工程架构。

下一代AI基础设施会是什么样,这篇综述全给你讲明白了。

回顾过去几年,工程师驯服AI的手段经历了三个阶段。

2022年到2024年,大家都在拼提示词工程。精力全花在怎么写指令、给示例,优化单次调用的输入文本。

到了2025年,智能体运行时间变长,焦点变成了上下文工程。核心是决定模型每一步该看什么,涉及记忆检索、信息压缩。

进入2026年,重点彻底转向了Harness工程。开发者开始搭建包裹模型的执行外壳,维护状态、调度工具、注入反馈、强制执行安全规则。

系统时间线清晰地展现了演变过程。早期的智能体把能力集中在一个单一的模型循环里,现在的系统越发把可靠性当成跨层的基础设施问题来解决。

性能瓶颈不在模型

业内曾有一种天真的预期,只要模型越来越强,智能体自然就会越来越可靠。

现实并非如此。研究团队提出了约束绑定假说,认为在多步骤、工具密集的长任务中,系统表现不再主要由模型本身决定,而是由模型外部的Harness决定。

数据能直接证明上述观点。在编码基准测试中,研究人员仅修改编辑工具格式和周边Harness,不改模型,多个模型的表现提升了高达10倍。

固定GPT-5.2-Codex模型,仅通过系统提示词重构、中间件上下文注入和自验证拦截,在Terminal-Bench 2.0测试中的成绩从52.8%直接拉升到66.5%。

Meta-Harness通过自动优化Harness,在没有修改模型权重的情况下,成绩达到了76.4%,超越了手工调试方案。

模型只是推理引擎,Harness才是行为系统。

智能体能不能完成任务,取决于它能不能在安全环境里运行,看的信息是否过载,工具好不好用,状态能不能延续,错误能不能回滚。

为了把复杂系统拆解清楚,研究团队提出了ETCLOVG七层架构。前四层是结构核心,让智能体跑起来;后三层是控制平面,让智能体可控、可查、可验证。

七层架构的构成,涵盖执行、工具、上下文、生命周期、可观测性、验证评估与治理安全。

七层及其主要子类别,系统化呈现了现代智能体基础设施的全貌。

研究团队为了梳理七层架构,从开源社区、论文、公司技术博客中收集和分析170多个代表性项目的严谨过程。

七层系统

第一层是执行环境与沙箱。智能体需要一个物理环境来执行动作,比如写文件、跑代码、点网页。

沙箱在当前场景下不仅为了传统意义上的安全,还为了可复现性和活跃性。长周期任务中,把智能体关在沙箱里,它就能自由探索,不用每次操作都弹窗让人类点同意。

系统不再局限于简单的容器。

通用托管沙盒如Daytona、E2B提供基于微虚拟机的API接口。

计算机使用基础设施如Anthropic的Computer Use直接提供图形桌面环境,让智能体像人一样模拟鼠标和键盘。

代码专用沙盒如OpenAI Code Interpreter优化了启动速度。

框架集成运行时如OpenHands直接把沙盒和框架绑在一起。

业界还衍生出了浏览器评估环境、操作系统级权限沙盒以及沙盒抽象层。

第二层管的是智能体如何发现和调用工具。

该层的核心工作,涵盖协议标准、工具描述发现、工具增强训练以及规模化会话管理。

生产环境的血泪教训是给的工具不是越多越好。庞大的工具菜单会消耗大量token,还会诱发模型规划错误。少而精的工具库胜过大而全的接口堆砌。MCP等协议标准正在统一业界生态。

表1按整合边界对工具和接口标准进行了分类。MCP主打工具接入,A2A专注于智能体之间的通信与协作,函数调用搞定结构化输入,OpenAPI规范机器可读的API合约。

第三层决定智能体每一步能看到什么。

大模型的注意力机制成本随着上下文长度呈二次方增长,还存在中间信息容易被忽略的注意力陷阱现象。时间线拉长后,还会出现上下文腐烂,记忆不能被动堆积,必须主动管理。

上图列举了上下文管理的不同时间维度技术,开发者引入了操作系统的内存分级概念。

短期活动上下文窗口像内存。核心动作是优化系统提示词,使用渐进式披露按需加载文件,利用KV缓存降低成本。

中期会话状态像休眠文件。利用结构化笔记或把规划写进外部文件,智能体清空上下文后能读笔记恢复状态。

长期持久化记忆系统像硬盘。Mem0等系统结合向量数据库和图数据库,不仅存事实,还通过观察、反思、检索机制提取高级知识。

对于超长周期任务,需要用上下文压缩和子智能体隔离来防止上下文漂移。

第四层管理智能体在多次调用、重试和崩溃中的执行流。

上图图展示了各种编排模式的代表作,涵盖单智能体内循环、多智能体编排和全生命周期流水线。

智能体从一次工具调用走向持续运行,需要完善的调度系统。最基础的是单智能体内循环,经典的ReAct模式基于无状态重放或混合状态运行。

表2对各类编排系统进行了详细分类。多智能体编排支持分层、图组合、工作流等模式,能更好地分解任务。全生命周期任务流水线则将智能体嵌入到从提需求到合并代码的完整工程流程中,用持久化构件作为状态锚点。

第五层专门负责追踪、监控和排错。论文明确将可观测性独立成层,因为它在生产环境中已经有了专属的工具栈。

上图列出了可观测性领域的核心工具,涵盖追踪监控、智能体专用运维平台、成本优化和可靠性工程。

基于OpenTelemetry标准,Langfuse、Arize Phoenix等平台把大模型调用、工具执行、检索全过程转化为可视化的树状图。

成本追踪也是重头戏。每个子任务可能触发几十次调用,成本极易失控,智能路由和语义缓存成为必备运维手段。

为了应对瞬时失败,系统架构走向了解耦。Anthropic的Managed Agents架构把大脑和双手分开,沙盒崩溃了立刻重拉一个实例,进度毫不受损。

第六层是评测。智能体的评测对象必须是模型加Harness整体组合,单纯给模型打分毫无意义。

现代评测不再是简单核对最终答案,而是变成了一个任务到反馈的五阶段生命周期。

上图清晰展示了闭环流程。先明确环境和成功标准。接着进行执行前准备验证,确保沙盒、依赖、权限初始化正确,防止环境背锅。

进入受控执行与追踪捕获阶段,完整记录运行轨迹。随后进行多级判断与故障归因,既看结果,也评估工具调用是否合理,甚至评估裁判模型本身有没有偏见。最后将失败记录转化为回归测试反馈给系统,驱动Harness持续迭代。

第七层是硬门槛。当智能体能运行代码、发送邮件、调取机密时,必须有一套跨层的控制系统管住动作边界。

权限与身份管理正在进化,从静态边界走向上下文相关的动态权限控制,甚至在多智能体系统中引入身份验证令牌。

生命周期钩子的四个关键拦截点:输入模型前防提示词注入,执行工具前防越权,工具返回后进行污点追踪,关键动作前强制人工审批。声明式宪法把安全规则写成独立的配置文件,合规团队可以直接修改行为边界。不可篡改的结构化审计日志成了防范长期攻击的最后底线。

表3将各种治理机制与具体的风险分类进行了映射对应,展现了深度防御的设计思路。

表4横向对比了目前主流系统的治理功能覆盖情况,能看出大多系统还有明显的安全短板。

跨层挑战与系统博弈

七层架构无法孤立优化,各层高度耦合,牵一发而动全身。

业界面临一个成本、质量和速度的不可能三角。更安全的沙盒、更深度的验证必然导致延迟增加和成本飙升。能力与控制也在相互拉扯。给智能体越多工具、越长记忆、越大沙盒权限,带来的爆炸半径和安全隐患就越大。

Harness耦合问题带来系统级挑战,改动一个小小的工具描述可能引发上下文开销剧变,环境的一点小改动能让评估得分面目全非。

虽然架构已然清晰,研究人员依然提出了五个亟待解决的开放问题。

行业需要兼顾微虚拟机级别的隔离强度和低成本大规模并发的沙盒技术。

上下文压缩一定会丢信息,业界需要量化信息损耗,让智能体学会利用外部构件自我恢复状态。

评估不能只看结果,需要利用海量的可观测日志,自动归因到底是谁犯了错。

智能体之间、人机之间交接任务时,需要规范传递意图、约束、权限和历史状态的标准协议。

很多复杂的Harness设计只是为了弥补当前模型的愚钝,当更强的模型出现,系统需要自动识别并拆除沦为累赘的基础设施。

一个能在真实世界稳健运行的AI,绝不仅仅是一个参数庞大的模型,必定是一台拥有底盘、悬挂、刹车和精密仪表盘的完整工程机器。

吃透ETCLOVG七层架构,看懂系统边界,才是驾驭智能时代的正途。

参考资料:

https://picrew.github.io/LLM-Harness/

https://github.com/Picrew/awesome-agent-harness

https://picrew.github.io/LLM-Harness/main.pdf

END

点击图片立即报名👇️


图片
图片
图片
图片
图片