lch
发布于 2026-03-20 / 0 阅读
0

通透!吃透龙虾 OpenClaw:新手避坑,老手进阶

去年还是百模大战,今年就是百虾大战了。
无论大厂小厂全部下场,腾讯有 QClaw、WorkBuddy,字节有 ArkClaw、阿里有 CoPaw、JVSClaw、小米MiClaw、华为小艺Claw、百度有 DuClaw、红手指 Operator、360安全Claw、猎豹EasyClaw、MiniMax MaxClaw、月之暗面Kimi Claw、智谱AutoClaw、科大讯飞 AstronClaw、网易有道LobsterAI …… 这年头,不搞个 Claw 都不要意思,说自己是搞 AI 的。

热闹的龙虾大战背后,用户越看越懵。

教程满天飞、版本五花八门、逻辑难懂、越学越乱。

安装费缴了,就又准备缴卸载费了,完全是凑热闹的。

这篇不讲安装,不讲卸载,只做一件事:深入浅出,带你吃透龙虾 OpenClaw。

如果你是从未部署过的新手,帮你快速建立认知、甄别优质教程、避开入门误区,少走大量弯路。

如果你是已经上手的老手,帮你打通底层逻辑、读懂核心文件、解决实操难题,让龙虾真正听话、好用。

读完这篇,你就能从原理到实操,你就通透了,彻底吃透 OpenClaw,养好属于自己的龙虾。


从 AI 聊天开始

绝大部分 AI 仅依赖模型的智能,交互流程是这样的:
人类用户(提出问题)AI(理解问题回答)人类用户
例如:
你:北京的天气怎么样AI:北京今天12℃,多云//注意:这个答案可能是 AI 凭空编造的——因为它没有实际获取天气数据的能力。

如果 AI 有手
模型的能力越强,智能越高,理解人类意图的能力也就越好。但这类 AI 有个致命局限:只动嘴、不办事,还容易失忆。
如果 AI 不只是动嘴,还能做事呢?

还是以查询天气为例:如果 AI 能主动打开天气网站、获取真实天气数据,再告诉你,那它就不再是单纯的 AI —— 而是开始使用工具,这就是 Agent 的雏形。

交互流程是这样的:
人类用户Agent理解意图(理解问题/决策/规划)Agent使用天气工具获得天气信息AI用人类语言人类用户

AI 进化成 Agent
如果 AI 能使用更多工具,如浏览器、应用程序、文件系统、数据库、API等,当工具使用达到一定量级,就会发生量变到质变:AI 就能像人类一样操作电脑了。毕竟人类在电脑上做事,本质也是操作这些工具。
交互流程升级为
人类用户Agent理解意图(理解问题/决策/规划)Agent使用电脑上各种工具通过电脑获得资料Agent用人类语言人类用户

很多人会疑惑:Agent 没有鼠标和键盘,怎么操作电脑?

其实计算机的本质,本就不需要鼠标键盘,鼠标键盘是为了方便人类操作而设计的,计算机本身是通过“命令”运行的。

比如在苹果电脑的终端中,输入以下命令,就能直接打开浏览器或微信:

//打开 /应用 /浏览器safari/微信appopen /Applications/Safari.appopen /Applications/WeChat.app

你跟 Agent 说的每一句话,Agent 在理解你的意图后,都会翻译成计算机能识别的命令,这就是 Agent 操作电脑的核心逻辑。

Skills 就是灵巧手

但问题来了:每个软件的操作命令都不同,Agent 即便理解了你的意图,也无法凭空翻译成软件能执行的命令。

这就需要给 Agent 一份“工具说明书”,把每个软件的指令说清楚,哪个指令对应什么功能,这份说明书就存放在 SKILLS.md 文件中。本质上 SKILLS 就是 CLI(命令行界面)的套壳。

这里简单解释下 CLI:它是图形界面普及前最常用的用户界面,不支持鼠标,用户通过键盘输入指令,计算机接收后执行相应操作。

需要特别注意的是 Agent 发出指令后,真正执行功能的是工具本身,SKILLS 并不直接执行具体功能,只是功能的搬运工。

OpenClaw 创始人 Peter 说 Agent 会取代手机里 80% 的应用。并不是指这些应用消失不存在了,而是这些应用改变了存在的形态。不再是手机上一个独立的应用入口,而是变成了一个 SKILLS 链接到 Agent,Agent 成为了统一入口,而原来手机上独立的应用,变成了在 Agent 后面的能力提供商。 而 SKILLS 的数量肯定会比手机上的应用更多,至少是 10 倍以上,尤其是等原来手机上的独立应用都 CLI 化以后,能组合的 SKILLS 奔着 100 倍去了。

此时,完整的交互流程升级为:

人类用户Agent理解意图(理解问题/决策/规划)SKILLS(工具说明书)工具执行,原来的APPCLI/API/模拟点击)通过电脑获得资料(网站/应用/文件等)Agent用人类语言人类用户
用命令在电脑上打开软件很简单,但要通过命令控制软件里的所有功能,就没那么容易了 —— 必须满足以下条件之一:软件自带命令行工具、软件提供 API 接口、拥有系统级权限的模拟操作工具。
举两个典型例子:Chrome 浏览器有 Chrome DevTools Protocol(CDP)能让代码命令像人类操作一样控制浏览器;而微信既没有提供命令行工具,也没有开放 API 接口,如果用系统级模拟工具操作微信,还可能触发微信的风控机制导致封号。
这就涉及到两个核心问题:软件的风控策略,以及 OpenClaw 的安全风险。OpenClaw 经过你的授权后,能完整操作你的电脑,但由于 AI 模型本身存在不可控性、可能被注入恶意指令等问题,会带来一定安全隐患。
其实,权限既是 OpenClaw 实现智能的根源,也是安全风险的根源。用更多的权限换智能,这是一种选择。也是目前不建议大家在主力机上直接部署 OpenClaw 的核心原因。

这部分内容不做深入展开,我们继续往下聊。


人类希望 AI 是像人一样有情感

虽然 Agent 通过使用各种电脑软件变得很厉害了,但依然有一个局限:这个时候的 Agent 就像个临时工,不记得你,也不懂你。

如果想让 Agent 变成你的专属助手,你大概率希望它:记住你是谁、明白你的要求、适配你的习惯、主动完成任务、自我提升。这样的 Agent 就不再只是一个简单的 AI,而是真正贴合你需求的助手
这部分是理解 OpenClaw 的关键,能让你瞬间顿悟,直接上干货:
OpenClaw 通过一套文件系统,把 Agent 打造成了你的专属助手
OpenClaw Agent 的内部文件系统很简单,每一部分,都对应真实文件,就像你平时编辑的 Word、PPT 文件一样,只不过它的文件格式是 .md(markdown 文件)。
每次你 OpenClaw 会话,它都会自动读取这些.md文件,这些文件记得你、懂你的核心,然后 OpenClaw 再决定自己怎么行动。简单来说,你养龙虾,就是在不断的优化、迭代这些.md文件的过程。
会话 Session 启动├─ 读取 SOUL.md,决定做事的原则├─ 读取 IDENTITY.md,知道自己是谁├─ 读取 USER.md,知道服务的人是谁├─ 读取 MEMORY.md,记起曾经的经验├─ 读取 memory/YYYY-MM-DD.md,记起最近的事└─ 读取 AGENTS.md,按照工作流程办事└─ 读取 SKILLS.md,看能力怎么用
这是一个设计非常有价值,有三个核心优势:
第一,对人类友好,你可以直接像编辑 word 一样编辑 Agent。比如,想修改 Agent 的名字,只需编辑 IDENTITY.md 文件;想让 Agent 记住你的想法,直接修改 MEMORY.md 文件即可,操作简单易懂。
第二,支持自我成长,Agent 可以写日记只要自动更新 MEMORY.md 文件,自己总结经验沉淀为 SKILLS 提升能力。
第三,可自我繁殖,复制粘贴这套文件,新的 Agent 就拥有了相同的能力,类似细胞分裂。即使 OpenClaw 不存在了,这套文件系统也能繁殖到其他地方。

我用“类比人类”的方式,解释下每个文件的作用,方便理解

Agent 助手├── 灵魂│   └── SOUL.md│       # Agent视角:行为准则│       # 人类类比:价值观│       # 系统作用:决定做事原则├── 身份│   ├── IDENTITY.md│   │   # Agent视角:我是谁│   │   # 人类类比:名字职业经理等│   │   # 系统作用:定义 Agent 角色│   └── USER.md│       # Agent视角:我服务谁│       # 人类类比:我的老板是谁│       # 系统作用:记录人类用户信息├── 记忆│   ├── memory/YYYY-MM-DD.md│   │   # Agent视角:操作日志 │   │   # 人类类比:日记│   │   # 系统作用:记录每天发生的事情│   └── MEMORY.md│       # Agent视角:长期记忆│       # 人类类比:人生经验│       # 系统作用:重要事项经验总结├── 行为│   ├── AGENTS.md│   │   # Agent视角:工作手册│   │   # 人类类比:工作流程│   │   # 系统作用:定义Agent运行规则│   ├── BOOTSTRAP.md│   │   # Agent视角:第一次启动流程│   │   # 人类类比:出生证明│   │   # 系统作用:引导用户初始化Agent│   ├── HEARTBEAT.md│   │   # Agent视角:习惯任务│   │   # 人类类比:日常习惯│   │   # 系统作用:周期检查任务│   └── cron/jobs.json│       # Agent视角:日程表│       # 人类类比:待办计划│       # 系统作用:定时执行任务└── 能力    ├── TOOLS.md    │   # Agent视角:工具环境    │   # 人类类比:生存环境    │   # 系统作用:定义工具使用环境    └── SKILLS.md        # Agent视角:工具命令生成指南        # 人类类比:工具使用说明书        # 系统作用:生成工具命令
读懂了这些文件的含义,能帮你快速解决养龙虾过程中的几乎全部问题。比如,当你发现龙虾没有按照你的意图定时执行任务,只需打开 cron/jobs.json 文件检查一下,看看定时任务是不是写了。要是龙虾老是忘记你交代的重要事项,打开 MEMORY.md 看看就知道了。
这种设计有一个特点:使用越久,Token 消耗就越大原因很简单:使用次数越多,每个 .md 文件存储的内容就越丰富,而每次会话,OpenClaw 都要读取所有相关文件,自然会消耗更多 Token。用更多的 Token 换智能,这是也一种选择,也是很多用户养龙虾时会遇到的困扰(Token 消耗越多,使用成本越高)。
总结起来是:OpenClaw 用更大的权限、更多的 Token 换来了更好的智能。如果你想要这种智能,就要给更大的权限( vs 风险),花更多的 Token(vs 成本)。

到这里,人类与 Agent 的完整交互流程,升级为:

人类用户Agent理解意图(理解问题/决策/规划)Agent人格系统(灵魂/身份/记忆/行为/能力)Skills(工具说明书)工具执行CLI/API/模拟点击)通过电脑获得资料(网站/应用/文件等)Agent用人类语言人类用户

人还是喜欢简单的人
Agent 只是一部分,人还是没变,还是下喜欢简单,人想要通过更简单的方式跟 Agent 交流,所以现存的通讯工具微信/飞书/QQ 成了最便捷的入口,在 OpenClaw 里叫 Channel。从人的视角来看,跟 OpenClaw 的整个互动过程是这样的:
人类用户交互入口(飞书/微信/QQ等IM工具)Extension(OpenClaw 连接插件)Agent理解意图(理解问题/决策/规划)Agent人格系统(灵魂/身份/记忆/行为/能力)Skills(工具说明书)工具执行CLI/API/模拟点击)通过电脑获得资料(网站/应用/文件等)Agent用人类语言人类用户
如果真把 Agent 当作一个打工人,它每天的牛马生活大概就是,不断的写、写文档、写md文档(怎么看起来像一句粗话),大概是这样的:
建立人格,写IDENTITY.mdUSER.md
学习价值观,写SOUL.md
开始工作,写AGENTS.md
记录生活,写memory/YYYY-MM-DD.md
总结经验,写MEMORY.md
形成习惯,写HEARTBEAT.mdcron/jobs.json
使用工具,写TOOLS.md
到这里为止,你已经吃透龙虾 OpenClaw 了,如果你在乎 Token 的话,建议:你知道能用工作流解决的不养虾,最好是用养虾来创建工作流。

龙虾还能操作什么?
前面讲 OpenClaw 能操作你电脑的本质是,OpenClaw 安装在你电脑上,通过 SKILLS 套壳应用的 CLI 命令操作电脑上的各类软件简单来说,只要软件能提供 CLI 接口,就能被 OpenClaw 操作。
如果 OpenClaw 安装在手机上,就能操作你的手机。
如果 OpenClaw 安装在机器人身上,就能操作机器人。
… …
你通透了没 -_-