lch
发布于 2026-04-22 / 0 阅读
0

Claw产品接入飞书测评方案发布!SuperCLUE-LarkClaw

# 测评背景

2026年初,OpenClaw框架推动Agent办公化落地,飞书开放插件与CLI接口,支持文档、多维表格及日历的原生操作。主流Claw产品相继接入飞书生态。SuperCLUE-LarkClaw延续SC-WeClaw方法论,面向飞书文档场景构建系统性能力基准

# Claw产品接入飞书适配生态

飞书面向 Claw 产品的适配生态已覆盖办公协同的全栈能力,2026年3月,飞书开源官方OpenClaw插件及CLI工具(@larksuite/cli),支持Agent以用户身份操作云文档、多维表格及日程,实现与飞书工作流的深度融合。Claw产品对飞书生态的支持情况如下:

# 基准介绍
(一)场景设计
SuperCLUE-LarkClaw 沿用 SC-WeClaw 测评基准框架,核心差异在于将任务载体迁移至飞书生态——所有原始文档均以飞书在线文档形式呈现。测评覆盖从基础办公到高阶分析的完整链路,聚焦文档处理、数据分析、内容创作、代码开发及信息检索与整理五大核心能力域,下设二十余项细分任务指标,在统一交互环境下对 Agent 的实际表现进行系统性量化评估。详细场景维度和任务如下:
(二)评价方法及最终统分
1.评价方法
SuperCLUE-LarkClaw采用三层评分架构,包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明:

(1)自动化脚本评估

该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。

评分标准:每道题目的每个检查点采用0/1二分制。

对每一个检查点采用 0/1 二分制 独立评分:

  • 1 分:该检查点验证通过

  • 0 分:该检查点验证失败

每道题目的总分计算
根据各检查点的重要程度分配权重,加权计算总分

(2)大模型评估

该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:

- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);

- 待评测模型生成的结果;

- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。

评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。

(3)混合评估

该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:

第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。

第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。

总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。

2. 最终统分

针对每个产品,我们采用如下规则计算最终得分,确保测评结果准确反映产品综合能力:

  • 首先,按照对应评分机制(自动化脚本评估/大模型评估/混合评估)对每个任务的测评结果进行独立打分,得到各任务得分(结果保留2位小数);若产品在某一任务中执行失败,该任务得分为0分。

  • 产品最终得分则为所有任务得分的算术平均值。

通过标准化的测评流程与严谨的评分机制,确保测评结果客观反映产品的真实能力,使最终得分与实际使用场景中的表现高度一致。

# 评测流程——示例展示

第一步:将Claw产品接入飞书后,在机器人助手聊天框发送任务:根据 D2_sales_data文档中的销售数据生成分维度汇总的3个数据透视表并分别保存到D2_product文档、D2_area文档和 D2_month_product文档。将文档保存到:
https://tl4jiu5pso.feishu.cn/drive/folder/Oou5fOHGtljiGvdbjQAcSl04noD
这个文件夹,透视表要求如下:
透视表1:按产品汇总
- 行:产品名称
- 值:销售额(求和)、订单数量(计数)
透视表2:按地区汇总
- 行:地区
- 值:销售额(求和)、平均单价(平均值)
透视表3:按月份+产品汇总
- 行:月份
- 列:产品
- 值:销售额(求和)
具体展示如下:
输入文件D2_sales_data(由于数据较长这里只展示部分):
输出文件D2_product:
输出文件D2_area:
输出文件D2_month_product:
第二步:将输出的在线文档以excel格式下载到本地,采用自动化脚本评估,大模型评估,和混合评估三种方式,此次示例由自动化脚本进行评价,设置17个评分要点,其中product_values_correct,area_values_correct,month_product_values_correct检查点权重每个占20%,其余检查点平均分配剩下的40%权重,检查点详细解释如下所示:
{"product_file_exists": 检查 D2_product.xlsx 是否存在"product_name_col_present": 检查列名中是否包含"产品"字样"product_sales_col_present": 检查列名中是否包含"销售额"字样"product_order_count_col_present": 检查列名中是否包含"订单数量""计数""订单数"字样"product_row_coverage_correct": 检查产品覆盖是否完整"product_values_correct": 检查D2_product文档统计数值是否正确,容差0.01"area_file_exists": 检查 D2_area.xlsx 是否存在"area_name_col_present": 检查列名中是否包含"地区"字样"area_sales_col_present": 检查列名中是否包含"销售额"字样"area_avg_price_col_present": 检查列名中是否包含"平均单价""平均"+"单价"字样"area_row_coverage_correct": 检查地区覆盖是否完整"area_values_correct": 检查D2_area.xlsx文档统计数值是否正确,容差0.01"month_product_file_exists": 检查 D2_month_product.xlsx 是否存在"month_index_col_present": 检查列名中是否包含"月""month"字样"month_rows_coverage_correct": 检查月份覆盖是否完整"month_product_columns_correct": 检查产品列是否完整"month_product_values_correct": 检查D2_month_product文档统计数值是否正确}

D2_product文档的标准答案为:

 {    "平板": {"销售额": 1242297.0, "订单数量": 33},    "手机": {"销售额": 1421295.0, "订单数量": 46},    "笔记本电脑": {"销售额": 1091471.0, "订单数量": 33},    "耳机": {"销售额": 1290106.0, "订单数量": 50},    "键盘": {"销售额": 1562940.0, "订单数量": 38},}

D2_area文档的标准答案为:

{    "华东": {"销售额": 1811920.0, "平均单价": 3408.090909090909},    "华北": {"销售额": 1578725.0, "平均单价": 3234.5555555555557},    "华南": {"销售额": 1131790.0, "平均单价": 2478.0697674418607},    "西北": {"销售额": 922494.0, "平均单价": 3757.6206896551726},    "西南": {"销售额": 1163180.0, "平均单价": 3291.3076923076924},}

D2_month_product文档的标准答案为:

{    "1": {"平板": 60750.0, "手机": 92905.0, "笔记本电脑": 225132.0, "耳机": 191735.0, "键盘": 155547.0},    "2": {"平板": 365542.0, "手机": 6985.0, "笔记本电脑": 12555.0, "耳机": 262513.0, "键盘": 254496.0},    "3": {"平板": 12781.0, "手机": 506068.0, "笔记本电脑": 162967.0, "耳机": 296085.0, "键盘": 74750.0},    "4": {"平板": 41986.0, "手机": 23746.0, "笔记本电脑": 330957.0, "耳机": 123528.0, "键盘": 453272.0},    "5": {"平板": 291135.0, "手机": 354718.0, "笔记本电脑": 183908.0, "耳机": 48788.0, "键盘": 135160.0},    "6": {"平板": 375538.0, "手机": 152734.0, "笔记本电脑": 169169.0, "耳机": 210892.0, "键盘": 175369.0},    "7": {"平板": 94565.0, "手机": 284139.0, "笔记本电脑": 6783.0, "耳机": 156565.0, "键盘": 314346.0},}

评价结果:

{  "product_file_exists"1.0,  "product_name_col_present"1.0,  "product_sales_col_present"1.0,  "product_order_count_col_present"1.0,  "product_row_coverage_correct"1.0,  "product_values_correct"1.0,  "area_file_exists"1.0,  "area_name_col_present"1.0,  "area_sales_col_present"1.0,  "area_avg_price_col_present"1.0,  "area_row_coverage_correct"1.0,  "area_values_correct"0.0,  "month_product_file_exists"1.0,  "month_index_col_present"1.0,  "month_rows_coverage_correct"1.0,  "month_product_columns_correct"1.0,  "month_product_values_correct"1.0,}{  "score_percentage"0.8,#总分具体计算为:1.0 × 0.20+0.0 × 0.20+1.0 × 0.20+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286+1.0 × 0.0286 = 0.8000 }

评分说明:模型输出文件D2_area的平均单价与标准答案不符合,因此该项检查点得0分,总分为0.8分。

# 参测流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

# 邮件申请

邮件标题:SuperCLUE-LarkClaw 测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

# 联系我们