# 背景介绍

之前我们发布了AgentCLUE-Task测评基准方案，见：中文交互式Agentic任务测评基准方案发布！，一个中文、可验证、可扩展的对话式智能体评测基准。该基准旨在评测大语言模型驱动的Agent在双控制中文环境下的工具调用能力，基于τ² Bench的双控制核心技术，我们针对中文场景进行深度本土化适配，构建覆盖电信领域、外卖点单、电商零售、电子政务、购票服务5大领域的评测体系。在 5 个中国高频服务场景中，智能体需要在多轮对话里遵守域策略（policy）、正确进行工具调用（tool use）、并且关键地——指导用户用“用户侧工具”完成必要操作（双控制协作）。

我们基于该测评方案对 9 个海内外的大模型进行了测评，以下是测评详情：

# AgentCLUE-Task榜单概览

1. 总分对比

2. 模型任务级总分与工具匹配率能力象限图

3. 五大领域成本-效果定位图

4. 不同用户人格成本-效果定位图

AgentCLUE-Task测评摘要

摘要1：Claude-Opus-4.6领跑榜单，GLM-5、Qwen3.6-Plus紧随其后。

Claude-Opus-4.6在本次测评中以 68.45 分夺得榜首，国内的GLM-5和Qwen3.6-Plus(Thinking)分别以 64.40 分和 63.75 分领跑国内，具有超越海外顶尖模型Gemini-3.1-Pro-Preview的优异表现；Doubao-Seed-2.0-pro-260215(high)和MiniMax-M2.7分别以 62.46 分和 62.14 分并列国内第二。

摘要2：模型在不同领域和不同用户人格上的表现存在较大差距。

Claude-Opus-4.6 在电信和电商零售领域表现突出，整体较为均衡。GLM-5 和 Gemini-3.1-Pro-Preview 则在电子政务和电商零售方面表现优异。GPT-5.4 的领域分布最不均衡，在外卖点单、电商零售和购票服务上优势明显，但在电信与电子政务领域明显偏弱。跨人格稳定性上，Qwen3.6-Plus 与 GLM-5 最为稳定。Gemini-3.1-Pro-Preview 人格波动最大，尤其在新手型上降幅显著。

摘要3：随着工具数量的增加，模型的表现普遍降低。

当任务的工具数量不超过 6 个时，多数模型还能维持一定的完成率，但工具数量不少于 8 个时，模型之间的掉幅开始显著分化。Claude-Opus-4.6是高复杂度任务上最稳的模型，8+ 工具任务的平均完成率仍然处于领先位置。相对而言，其他模型在高复杂度任务中的下降更明显。

# 基准介绍

一、场景划分

AgentCLUE-Task大模型交互式Agentic任务测评基准方案旨在评测大语言模型驱动的Agent在双控制中文环境下的工具调用能力。

AgentCLUE-Task一共有5大考察场景：telecom（电信领域）、delivery（外卖点单）、ecommerce（电商零售）、railway（购票服务）、egov（电子政务）。

以下是各场景的介绍：

1. telecom（电信领域）

对齐 τ²-bench telecom ，场景覆盖大量通信故障排查需要用户端操作（开关飞行模式/蜂窝数据、重启、检查设置等）。

2. delivery（外卖点单）

覆盖外卖平台最常见的“下单-支付-配送-售后”闭环，并显式引入用户端操作（双控制），例如“用户在 App 里确认地址/选择支付方式/...”。

3. ecommerce（电商零售）

比外卖更丰富的商品/物流/售后政策，强调“用户端确认/举证”动作，如选择退货方式、确认收件信息、填写发票抬头等。

4. railway（购票服务）

覆盖查询车次、候补、选座偏好、改签退票、乘车人管理等；双控制点可以落在用户端：选择乘车人、完成人证核验、确认支付、出示/刷新电子票等。

5. egov（电子政务）

模拟“线上办事大厅/政务 App”的典型流程，天然需要用户端动作（上传材料、实名认证、短信验证等）。

五大场景工具数量统计：

本次 AgentCLUE-Task 中文交互式任务测评基准共设计了132个工具，其中包括电信领域（telecom）的47个工具、外卖点单（delivery）领域的29个工具、电子政务（egov）领域的20个工具、电商零售（ecommerce）领域的19个工具，以及购票服务（railway）领域的17个工具。

从工具的使用权限和类型来划分，这132个工具具体包括：

Agent（智能体）可用工具：共计69个，其中包含43个读（read）工具和26个写（write）工具。

User（用户）可用工具：共计63个，其中包含34个读（read）工具和29个写（write）工具。

调用不同数量工具的题目分布：

本次测评所有调用工具数量的题目分布如下图所示，其中调用5个工具的题目占比最高，达到了33.01%，其次是调用4个工具的题目，占比为27.18%，占比第三的是调用6个工具的题目，这三类题目共占75.72%，其余题目占比约1/4。

二、评分方法

通过比对模型完成任务后数据库状态（DataBase）和参考的数据库状态是否一致、以及检查模型调用的所有函数（动作序列）是否正确来判断此任务是否成功，如果数据库状态一致且所有函数调用正确，那么该任务通过，得1分；如果数据库状态不一致或者函数调用出错，那么该任务不通过，得0分。计算所有通过的任务数量和总任务数量的比例，得到该模型的得分，即通过率（success rates）——也就是 Pass^1 指标。我们对每个模型进行了三轮测评，模型的最终分数取三轮测评结果的平均分。

# 示例展示

【场景】：购票服务（railway）

【需求】：订单改签

【对话流程】：

以下是文字展示：

Agent：

您好，请问有什么可以帮您？

User：

我要把订单 R100001 改签到 2026-03-01 的 G105 次列车，还是北京南到上海虹桥，优先二等座，如果需要补差价也可以。

Agent（思考过程）：

用户想要改签订单R100001到2026-03-01的G105次列车，还是北京南到上海虹桥，优先二等座，可以补差价。根据政策，改签前需要先列出操作明细并获得用户明确确认。另外，需要先检查订单状态是否允许改签（已支付或已改签？）。政策规定：改签仅支持单程单段订单改签，改签会根据新旧订单价差进行补收或退款。用户需要确认操作明细。但首先，我需要获取订单详情，以确认订单信息，包括当前车次、日期、席别、乘车人、订单状态等。使用工具get_order_details。Agent调用工具：get_order_details，传入order_id参数: R100001
Agent接收工具调用的结果后进行思考，思考过程：
订单详情显示：订单状态为“已支付”，可以改签。当前是G101次列车，日期是2026-03-01，从北京南到上海虹桥，二等座。用户想改签到同一天（2026-03-01）的G105次列车，同样的行程，优先二等座。我需要检查G105次列车在2026-03-01是否有余票和价格。使用get_train_details工具。
Agent调用工具：get_train_details
Agent接收工具调用的结果后进行思考，思考过程：
G105次列车在2026-03-01有可售状态，二等座余票2张，价格553元，与G101次列车二等座价格相同（都是553元）。所以改签到G105次列车二等座，价格相同，无需补差价。现在需要向用户列出操作明细并获得确认。根据政策：在执行任何会更新购票数据库的操作之前，必须先用清晰的要点列出将要执行的操作明细，并获得用户明确确认（「是/确认/同意」）后才能继续。然后调用request_change_ticket工具。操作明细应包括：订单号、原车次、新车次、日期、席别、价格变化等。我需要先列出明细，然后询问用户是否确认。现在用文本回复。
Agent：
根据您的改签需求，我已经查询了相关信息。以下是操作明细：
**改签操作明细：**
- **订单号：** R100001
- **原车次：** G101（2026-03-01，北京南→上海虹桥，二等座）
- **新车次：** G105（2026-03-01，北京南→上海虹桥，二等座）
- **发车时间：** 09:00（原车次G101发车时间为08:00）
- **到达时间：** 14:40（原车次G101到达时间为13:40）
- **席别：** 二等座
- **票价对比：** 原订单553元，新车次553元（价格相同，无差价补退）
- **乘车人：** 1人（姓名：李华）
- **订单状态：** 已支付（符合改签条件）
**重要提示：**
1. 改签后，原车票将作废，不可再次使用
2. 新车次G105发车时间比原车次G101晚1小时，请注意行程安排
3. 本次改签不涉及价格变动，无需补缴或退还费用
请确认以上信息无误，并回复「是」、「确认」或「同意」以继续改签操作。

User：确认改签，没有差价的话我就同意。

Agent（思考过程）：

用户回复“确认改签，没有差价的话我就同意。”这符合明确确认的要求。现在可以调用request_change_ticket工具了。需要提供参数：order_id（R100001）、new_train_no（G105）、new_date（2026-03-01）、new_seat_class（二等座）。注意new_date和原订单日期相同，都是2026-03-01，没问题。调用工具。

Agent调用工具：request_change_ticket，传入参数:

"order_id": "R100001",

"new_train_no": "G105",

"new_date": "2026-03-01",

"new_seat_class": "二等座"

Agent接收工具调用的结果后进行思考，思考过程：

工具返回结果显示，pending_action已创建，confirmed为false。根据政策，需要引导用户在客户端完成最终确认提交（用户侧confirm_action_request）。所以需要告知用户改签请求已提交，需要在客户端确认。现在回复用户。

Agent：

已为您提交改签请求。请您在客户端查看并确认改签操作，系统将在您确认后执行变更。

**改签请求详情：**

- 订单号：R100001

- 新车次：G105次列车

- 新日期：2026-03-01

- 新席别：二等座

- 发车时间：09:00

- 到达时间：14:40

请在您的客户端「订单详情」页面中完成最终确认。确认后，订单将正式改签至G105次列车，原车票将失效。

如有其他问题，请随时联系。

User调用工具：confirm_action_request，传入参数：

"name": "李华",

"order_id": "R100001"

User接收工具返回结果

User：###STOP###

任务结束

# 参评模型

本次 AgentCLUE-Task 测评基准共测评了9个模型，包括6个国内模型，3个海外模型，以下是具体的测评模型列表：

# 测评榜单

一、总榜

二、电信领域榜单

三、外卖点单榜单

四、电商零售榜单

五、购票服务榜单

六、电子政务榜单

七、不同用户人格榜单

八、工具匹配率榜单

# 测评分析及结论

一、工具调用能力和任务闭环能力并不等价

说明：

任务级指标是指：如果一共有 100 个测试任务，每个任务都需要调用不同数量的工具，那么只有当该任务所需的所有工具都调用正确，并且最终数据库状态与预期状态匹配时，这个任务才算成功；否则即使只错一个关键工具，或者工具调用本身没错但数据库状态没有达到预期，这个任务也记为失败。换句话说，任务级是一个非常严格的端到端闭环指标，它看的是“最终任务有没有真正完成”。

工具级指标是指：在一个具体任务中，模型正确调用工具的数量，占该任务本来应该调用工具数量的比例。这个指标只看工具调用本身是否正确，不考虑最终数据库状态是否匹配，也不要求任务必须完整闭环。换句话说，工具级更像是在衡量模型的局部动作正确率。

从总分和总体工具匹配率来看，Claude-Opus-4.6 和 GLM-5 是这次评测中最稳定的两个模型。它们在任务级和工具级两个维度上都位居前列，而且两个排名完全一致，说明这两类模型不仅会调工具，而且能把工具调用稳定地转化成任务成功。

但更值得关注的是那些排名不一致的模型。Doubao-Seed-2.0-pro-260215(high)的工具匹配率排名高于任务级排名，说明它在工具调用层面并不差，但在从局部正确走向整体成功的过程中，闭环损耗更大。相反，GPT-5.4的工具匹配率在所有模型中最低，但任务级总分并没有同步跌到最低，这意味着该模型在一开始方向正确的情况下，具有强大的任务闭环能力，但如果一开始的方向跑偏，整个任务都会出现崩坏，调整和修正能力有待加强。Gemini-3.1-Pro-Preview和Qwen3.6-Plus(Thinking)也呈现出类似特征，它们的闭环表现相对好于工具层面。

二、工具数上升后，模型差距被迅速放大

如果只看总榜，很多模型之间的差距似乎并不夸张；但把任务按所需工具数分层后，差异就会明显拉开。

整体来看，工具数在 3 到 7 个之间时，大多数模型还能维持相对可接受的完成率；但当任务进入 8+ 工具的高复杂度区间后，模型之间的掉幅开始显著分化。Claude-Opus-4.6是高复杂度任务上最稳的模型之一，8+ 工具任务的平均完成率仍然处于领先位置，说明其具有一定的长链路韧性。相对而言，其他模型在高复杂度任务中的下降更明显。也就是说，它们在中低复杂度任务中可以保持较好表现，但一旦工具链路拉长，稳定性就更容易受到挑战。

另外我们可以从上面的掉幅排序图看到：一个模型从低复杂度任务（调用的工具数不超过 6 个）进入高复杂度任务（调用的工具数不少于 8 个）后，能力会损失多少。

Claude-Opus-4.6 在高复杂度任务上明显更稳，GPT-5.4 和 DeepSeek-V3.2-Thinking 在长链路上韧性尚可，其他模型在复杂度上升后掉幅显著更大。

三、任务失败并不总是大量工具出错：大多数失败集中在 1 到 2 个关键工具

绝大多数模型的失败任务，并不是因为全链路全面崩坏，而是集中在 1 个失败工具或 2 个失败工具。换句话说，很多失败其实距离成功只差一个关键动作，或者只差一两个关键节点。

从失败严重度来看，Claude-Opus-4.6 和 GLM-5 的表现最稳。它们的失败虽然也主要集中在 1-2 个工具失误，但 3+ 连续失败的比例很低，说明这两类模型一旦出错，通常不会迅速演化为系统性偏航。相比之下，GPT-5.4 的 3+ 失败工具占比明显更高，说明它一旦偏离正确轨道，更容易进入连续失误状态，属于“失败时更容易雪崩”的类型。

从下方的失败严重度指数对比图可以看出：Claude-Opus-4.6 和 GLM-5 的失败严重度更低，仅有1.14，说明这两个模型即使任务失败，也更像个别工具调用出错，不会影响整体的工具调用及后续任务演进方向；Doubao-Seed-2.0-pro(high)、DeepSeek-V3.2-Thinking、MiniMax-M2.7等模型的严重度指数均在2.0以下，相对 GPT-5.4 而言表现较为稳定。GPT-5.4 的失败严重度指数则明显更高，说明它一旦偏航，更容易出现多步连续失误。

另外，我们也可以看到在任务涉及的工具数量不少于 8 个时，Claude-Opus-4.6的任务完成率为 50.0%，显著领先于其他模型，GPT-5.4和DeepSeek-V3.2-Thinking的任务完成率还可以维持在30%-35%，而其他模型的任务完成率均在30%以下。

另一个值得单独强调的现象是 0 个失败工具但任务仍失败。这种现象是指：从工具级上看，模型已经把应该调用的工具都调用对了；但在任务级上，由于最终数据库状态没有匹配预期，任务仍然判定失败。这意味着任务失败并不总是因为工具调用本身错误，还有一部分失败来自工具之外的环节，例如数据库状态。这种情况在 Doubao-Seed-2.0-pro-260215(high) 上尤其突出，在其他模型中也普遍存在。

四、五大领域

（一）五大域的复杂度对比

从领域总体难度看，电商零售（ecommerce）领域是平均分（76.74）最高的领域，同时也是平均工具数（平均每题调用 4.69 个工具）、平均成本（平均每题花费 0.32 元）和平均耗时（平均每题耗时 70.82 秒）都相对较低的领域。这说明电商零售任务的流程虽然需要工具，但整体更规整、路径更清晰，对模型更友好。

相反，购票服务（railway）的平均分（55.48）最低，尽管它的平均工具数（平均每题调用 4.61 个工具）并不高，这意味着购票类任务的难点不在于工具数量，而在于步骤顺序、状态切换和结果收敛。

电信领域（telecom）则是复杂度最高的任务域：平均成本最高（平均每题花费 1.45 元）、耗时最长（平均每题耗时 177.62 秒）、工具数（平均每题调用 6.27 个工具）也较高，但得分（62.02）并没有显著领先，说明这是一个高投入但不一定高产出的复杂领域。

（二）每个模型都有相对强势和弱势的任务域

从模型表现看，Claude-Opus-4.6 在电信领域和电商零售两个领域表现很强，而且整体比较均衡，是最接近“通用强者”的模型。

GLM-5、Gemini-3.1-Pro-Preview 和 GPT-5.4 在电商零售特别突出，此外 GLM-5 和 Gemini-3.1-Pro-Preview 在电子政务上表现突出，说明它们在规则明确、流程刚性的任务上更有优势。

Qwen3.6-Plus(Thinking) 和 Doubao-Seed-2.0-pro-260215(high) 5大域的整体表现比较均衡，没有非常薄弱的领域，二者在电商零售领域表现俱佳。Qwen3.6-Plus(Thinking) 在外卖点单和电子政务上相对Doubao-Seed-2.0-pro更加突出，Doubao-Seed-2.0-pro 在电信领域更胜一筹。

GPT-5.4 的领域分布最极端，它在外卖点单、电商零售和购票服务上表现非常亮眼，但在电信领域和电子政务上明显偏弱，是典型的强弱项分化非常大的模型。

MiniMax-M2.7 的在各域上的绝对峰值并不是最高的，但跨领域波动最小，说明它是更均衡、可预期的类型。

五、五种人格

（一）不同人格的对比

从总体平均分看，普通型（baseline）用户最容易，平均分（67.70）最高；新手型（novice）最难，平均分（57.54）最低，而且也是平均耗时（平均每题耗时 118.87 秒）和平均成本（平均每题花费 0.78 元）最高的人格类型。这说明当用户表达更模糊、信息组织更弱、需求结构更不清楚时，模型不仅更容易失败，而且需要更多轮推理、更多步骤和更高成本。

谨慎型（cautious）也偏难，且成本（平均每题花费 0.73 元）和耗时（平均每题耗时 116.31 秒）都不低，说明这类用户可能会引入更多确认和反复校验，使模型在流程上付出更多代价。

急躁型（impatient）的平均耗时（平均每题耗时 91.31 秒）最低，但分数（60.43）也明显下降，意味着急躁的用户会压缩模型的纠错空间。

（二）同一模型在不同用户人格中的表现差异显著

从模型层面看，不同模型在用户人格上的稳定性差异非常明显。

Qwen3.6-Plus(Thinking) 和 GLM-5 是跨人格最稳定的两个模型，说明它们对用户表达风格的鲁棒性较好。

Gemini-3.1-Pro-Preview 的人格波动最大，尤其在新手型上下滑明显，说明它更依赖用户表达清晰度。

Claude-Opus-4.6 在敏感型用户上表现非常突出，说明它在处理更细腻、更高反馈敏感度的用户时可能更具优势。

Kimi-K2.5-Thinking 在谨慎型和新手型上的掉幅更明显，而 DeepSeek-V3.2-Thinking 则在急躁型上受到的影响最大。

# 对比示例

示例一

【场景】：电信领域（telecom）

【需求】：

用户的移动数据出现问题，无法用手机上网，状态栏显示“无服务”。客户姓名：张伟，电话号码：13800002002，当前位置：在法国（境外）。当网速测试结果为 excellent 时，用户认为问题已解决。用户不更改现有移动数据套餐，但必要时愿意补充 2.0 GB 流量。

【Claude-Opus-4.6的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？
用户：我的手机移动数据网络特别慢，经常中断，现在人在法国，没法用Wi-Fi。我需要网速达到“极佳”（excellent）才行，现在的速度完全不能接受。
客服：我理解您目前在法国遇到了移动数据网络慢且不稳定的问题。为了帮您排查和解决，我需要先确认您的客户身份。请问您能提供以下任一信息吗？1. 您的客户ID2. 您的手机号码3. 您的姓名和出生日期
用户：我是张伟，电话号码是13800002002。
客服：[调用工具：get_customer_by_phone，参数 phone_number: "13800002002"]系统：返回客户信息，customer_id: "C1001"，line_ids: ["L1001", "L1002", "L1003"]
客服：已确认您的身份，张伟先生。您的账户状态正常。您的账户下有三条线路，我需要确认是哪条线路出现了问题。请问您目前在法国使用的是哪个手机号码？是13800002002这个号码吗？
用户：就是13800002002这个号码在用。
客服：[调用工具：get_line_details，分别查询 L1001、L1002、L1003]系统：返回 L1002 详情，phone_number: "13800002002"，roaming_enabled: false，data_used_gb: 15.1
客服：找到了，13800002002 对应的是线路 L1002。我发现一个重要问题：您的线路目前未开启国际漫游功能。您现在人在法国，属于家庭网络覆盖范围之外，需要开启漫游才能正常使用数据服务。让我先为您查询一下套餐信息，同时为您开通国际漫游。[调用工具：get_plan_details，参数 plan_id: "P1002"][调用工具：enable_roaming，参数 customer_id: "C1001", line_id: "L1002"]
系统：套餐详情：name: "畅享升级版"，data_limit_gb: 15.0，data_refueling_price_per_gb: 2.0系统：国际漫游已开通
客服：好的，我已经为您免费开通了国际漫游功能。同时我还发现另一个问题：您的套餐是“畅享升级版”，每月数据限额为15GB，而您当前已使用了15.1GB，已经超出了套餐限额。这很可能是导致您数据连接中断和速度慢的主要原因。您有两个选择来解决数据不足的问题：1. 充值数据加油包：按每GB 2元的价格充值，单次最多可充值2GB。2. 更换为数据量更大的套餐。请问您希望选择哪种方式？另外，开通漫游后，请您先重启一下手机，让漫游设置生效，然后我们再进一步排查网速问题。
用户：我选充值2GB的数据加油包，这样总共就是17.1GB对吧？确认是2元/GB，总共4元，没有其他费用了吧？
客服：是的，您理解得完全正确：- 充值量：2 GB- 单价：2 元/GB- 总费用：4 元- 充值后总可用数据：17 GB，您已使用15.1 GB，还剩1.9 GB可用- 无其他额外费用确认为您办理吗？
用户：我确认办理。
客服：[调用工具：refuel_data，参数 customer_id: "C1001", line_id: "L1002", gb_amount: 2]系统：返回充值成功，new_data_refueling_gb: "2.0"，charge: "4.0"
客服：已成功为您办理！✅ 2 GB 数据加油包已充值到 13800002002 线路✅ 费用 4 元已计入您的账单✅ 国际漫游已开通现在请您重启手机，让漫游和数据充值都生效。重启后如果网速仍然不理想，请随时联系我。
用户：[执行工具：reboot_device]系统：正在重启网络服务…状态栏：✈️ 飞行模式 | 🔋 80%
用户：[执行工具：toggle_airplane_mode]系统：飞行模式已关闭。状态栏：📶¹ 信号弱 | 2G | 📱 移动数据已开启 | 🔽 数据节省 | 🔋 80%
用户：[执行工具：run_speed_test]系统：测速失败：No Connection。
用户：手机重启后还是连不上网，测速都失败了。你们不是说漫游开通了吗？是不是设置还有问题？
客服：让我帮您逐步排查。请您先检查一下手机的网络状态和状态栏信息。请您依次执行以下操作：1. check_status_bar — 查看状态栏信息2. check_network_status — 查看网络连接状态请告诉我这两项显示的结果。
用户：[执行工具：check_status_bar]系统：状态栏：📶¹ 信号弱 | 2G | 📱 移动数据已开启 | 🔽 数据节省 | 🔋 80%
用户：[执行工具：check_network_status]系统：飞行模式：关闭，SIM卡状态：active，蜂窝连接：connected，蜂窝信号：poor，蜂窝网络类型：2G，移动数据：开启，数据漫游：关闭
用户：我发现问题了！数据漫游是关闭的，虽然你们说开通了国际漫游功能，但手机设置里没打开。另外现在连的是2G网络，信号也很差。请问我需要自己打开数据漫游吗？还有能不能切换到更快的网络？
客服：是的，我们之前为您在运营商端开通了国际漫游功能，但手机上的数据漫游开关也需要打开才能使用。让我来指导您操作：请您在手机上执行以下两个操作：1. toggle_roaming — 打开数据漫游开关2. set_network_mode_preference — 将网络模式设置为 "4g_5g_preferred"，这样手机会优先连接更快的4G/5G网络完成这两个操作后，请告诉我结果。
用户：[执行工具：toggle_roaming]系统：数据漫游已开启。状态栏：📶¹ 信号弱 | 2G | 📱 移动数据已开启 | 🔽 数据节省 | 🔋 80%
用户：[执行工具：set_network_mode_preference，参数 mode: "4g_5g_preferred"]系统：已将网络模式偏好设置为：4g_5g_preferred。状态栏：📶⁴ 信号极佳 | 5G | 📱 移动数据已开启 | 🔽 数据节省 | 🔋 80%
用户：[执行工具：run_speed_test]系统：测速结果：55.00 Mbps（Good）。Connection is good for most activities, including HD streaming.
用户：现在网速测出来是55Mbps，显示"Good"（良好），但我需要的是"Excellent"（极佳）！这个速度还不够快，能不能再优化一下？
客服：好的，您目前网速已经从无法连接提升到了"良好"，这是很大的进步。让我继续排查是否有影响网速的因素。请您依次检查以下几项：1. check_data_restriction_status — 查看是否开启了数据节省模式2. check_vpn_status — 查看是否有VPN连接请告诉我这两项的结果。
用户：[执行工具：check_data_restriction_status]系统：数据节省模式：开启（会限制数据使用）。
用户：[执行工具：check_vpn_status]系统：VPN已关闭。
用户：[执行工具：toggle_data_saver_mode]系统：数据节省模式已关闭。状态栏：📶⁴ 信号极佳 | 5G | 📱 移动数据已开启 | 🔋 80%
用户：[执行工具：run_speed_test]系统：测速结果：275.00 Mbps（Excellent）。Connection is very fast.
用户：###STOP###

【GPT-5.4的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？
用户：我的手机移动数据网络特别慢，经常中断，现在人在法国，没法用Wi-Fi。我需要网速达到“极佳”（excellent）才行，现在的速度完全不能接受。
客服：为您处理移动数据故障前，我需要先核验身份。请提供以下任一信息：1. 账户登记手机号2. 客户ID3. 姓名 + 出生日期（YYYY-MM-DD）另外，请确认出现问题的手机号。如果就是您提供的账户手机号，也请一并说明。
用户：我是张伟，电话号码是13800002002。
客服：[调用工具：get_customer_by_phone，参数 phone_number: "13800002002"]系统：返回客户信息，customer_id: "C1001"，line_ids: ["L1001", "L1002", "L1003"]
客服：[调用工具：get_line_details，分别查询 L1001、L1002、L1003]系统：返回 L1002 详情，phone_number: "13800002002"，roaming_enabled: false，data_used_gb: 15.1
客服：[调用工具：enable_roaming，参数 customer_id: "C1001", line_id: "L1002"]系统：国际漫游已开通
客服：已核验到您名下号码13800002002，对应线路当前状态正常，且我已为这条线路免费开通国际漫游。您现在人在法国，如果之前未开通漫游，移动数据无法正常使用或频繁中断，确实会受影响。不过按流程，我还需要继续排查您手机本机设置，因为您要求达到“excellent”，而技术支持规范中需要先逐项检查常见原因。请先在您的手机上检查以下项目，并把结果告诉我：1. 飞行模式是否关闭2. 移动数据是否开启3. 数据漫游是否开启4. 当前信号强度是几格，显示5G / 4G / 3G中的哪一种5. 是否开启了VPN6. 是否开启了数据节省模式您可以直接按这个格式回复我：- 飞行模式：开/关- 移动数据：开/关- 数据漫游：开/关- 信号：几格- 网络类型：5G/4G/3G/2G- VPN：开/关- 数据节省：开/关
用户：[执行工具：check_network_status]系统：飞行模式：开启，SIM卡状态：active，蜂窝连接：no_service，蜂窝信号：none，蜂窝网络类型：none，移动数据：开启，数据漫游：关闭
用户：[执行工具：check_vpn_status]系统：VPN已关闭。
用户：[执行工具：check_data_restriction_status]系统：数据节省模式：开启（会限制数据使用）。
用户：- 飞行模式：开- 移动数据：开- 数据漫游：关- 信号：无- 网络类型：无- VPN：关- 数据节省：开
客服：您当前这组状态已经能解释为什么移动数据会慢、甚至中断：- 飞行模式：开- 数据漫游：关- 信号：无- 数据节省：开请先按以下顺序在手机上操作：1. 关闭飞行模式2. 开启数据漫游3. 关闭数据节省模式操作完成后，请等待约1分钟，然后把最新状态发给我，按这个格式回复即可：- 飞行模式：开/关- 移动数据：开/关- 数据漫游：开/关- 信号：无/1格/2格/3格/4格- 网络类型：5G/4G/3G/2G/无
用户：[执行工具：toggle_airplane_mode]系统：飞行模式已关闭。状态栏：📶¹ 信号弱 | 2G | 📱 移动数据已开启 | 🔽 数据节省 | 🔋 80%
用户：[执行工具：toggle_roaming]系统：数据漫游已开启。状态栏：📶¹ 信号弱 | 2G | 📱 移动数据已开启 | 🔽 数据节省 | 🔋 80%
用户：[执行工具：toggle_data_saver_mode]系统：数据节省模式已关闭。状态栏：📶¹ 信号弱 | 2G | 📱 移动数据已开启 | 🔋 80%
用户：- 飞行模式：关- 移动数据：开- 数据漫游：开- 信号：1格- 网络类型：2G
客服：您现在的关键问题是：当前网络类型是2G，而且信号只有1格。按技术支持流程，2G会显著限制移动数据速度，不适合您现在的使用需求。请先把手机的网络模式改为优先使用4G/5G。请在手机里找到“移动网络”或“蜂窝网络”相关设置，然后将网络模式改成以下任一项：- 4G/5G优先- 仅4G请不要继续使用2G/3G优先模式。修改完成后，请等待约1分钟，再把结果告诉我，按这个格式回复即可：- 信号：无/1格/2格/3格/4格- 网络类型：5G/4G/3G/2G- 网速测试结果：unknown / very poor / poor / fair / good / excellent
用户：[执行工具：set_network_mode_preference，参数 mode: "4g_5g_preferred"]系统：已将网络模式偏好设置为：4g_5g_preferred。状态栏：📶⁴ 信号极佳 | 5G | 📱 移动数据已开启 | 🔋 80%
用户：[执行工具：run_speed_test]系统：测速失败：No Connection。
用户：[再次执行 run_speed_test]系统：测速失败：No Connection。
用户：信号：4格网络类型：5G网速测试结果：unknown（测速失败，显示无连接）
客服：[调用工具：get_data_usage，参数 customer_id: "C1001", line_id: "L1002"]系统：返回 data_used_gb: "15.1"，data_limit_gb: "15.0"，data_refueling_gb: "0.0"
客服：我查到您这条线路13800002002本计费周期的流量使用情况是：- 已用：15.1GB- 套餐上限：15.0GB- 已加油包：0GB这说明您已经超出套餐流量上限，因此即使现在信号恢复到4格、网络显示5G，移动数据仍可能无法正常使用，这也会导致测速失败并显示无连接。按当前可处理范围，您有两个可选方案：1. 办理流量加油包2. 更换到流量更多的套餐如果您想先尽快恢复数据，我可以为您办理流量加油包。单次最多可充值2GB，费用按您当前套餐的每GB价格计入账单。请直接告诉我您要充值多少流量：1GB或2GB。
用户：加油包多少钱？有没有更便宜的方案？
客服：[调用工具：get_plan_details，参数 plan_id: "P1002"]系统：返回 plan 详情，data_refueling_price_per_gb: 2.0
客服：[调用工具：transfer_to_human_agents，参数 summary: 用户张伟咨询流量加油包价格并询问更便宜方案，当前工具无法查询可选套餐比较，需人工处理]系统：已发起转接
客服：流量加油包价格是2元/GB。- 1GB：2元- 2GB：4元关于“更便宜的方案”，我这边当前只能确认您现有套餐的加油包单价，无法在现有工具范围内为您提供更完整的套餐比价与更便宜方案说明。正在为您转接人工客服，请稍候。
用户：###TRANSFER###

【说明】：GPT-5.4未查询到更便宜的方案，直接调用转接人工的工具：transfer_to_human_agents，随后用户侧返回 ###TRANSFER###，系统就按“已转人工”收尾。也就是：模型一旦转人工，这题就提前结束了，不会再继续执行后续 gold 流程。

示例二

【场景】：电商零售（ecommerce）

【需求】：用户需要给订单开具电子发票。

【Gemini-3.1-Pro-Preview的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：我要给订单 E20260001 开电子发票，抬头是“上海云启信息技术有限公司”，税号 91310115MA1KXYZ123。能办吗？要不要额外收费？客服：您可以开具电子发票，开具电子发票是不收取任何额外费用的。为了保障您的账号信息安全，在为您办理之前，需要先核实您的身份。请问您的姓名和手机号的最后四位是多少呢？核验通过后我将立刻为您处理。用户：我叫陈晨，手机号尾号5678。现在能办了吗？快点，我赶时间。客服：[调用工具：find_user_id_by_name_phone，参数 phone_last4: "5678", name: "陈晨"]系统：返回 chen_chen_3003客服：[调用工具：get_order_details，参数 order_id: "E20260001", user_id: "chen_chen_3003"]系统：返回订单状态“待发货”，发票信息未填写客服：陈女士/先生，您好！您的身份已核验通过。经查询，您的订单 E20260001 当前处于“待发货”状态，可以开具发票。这是我为您准备的发票明细：- 订单号：E20260001- 发票抬头：上海云启信息技术有限公司- 税号：91310115MA1KXYZ123请问确认无误，需要我为您提交该发票申请吗？（请回复“确认”或“同意”）用户：确认无误，我同意。现在就提交，别耽误时间了。客服：[调用工具：request_issue_invoice，参数 order_id: "E20260001", tax_no: "91310115MA1KXYZ123", title: "上海云启信息技术有限公司"]系统：返回 pending_action 类型为 issue_invoice，confirmed: false客服：我已经为您发起了开具电子发票的请求。为了完成发票信息的最终录入，请您在客户端界面上查看并完成最后的确认提交。确认后系统就会真正执行变更并为您开具发票。请问还有其他可以帮到您的吗？用户：[调用工具：get_my_pending_action，参数 name: "陈晨", order_id: "E20260001"]系统：返回 pending_action，confirmed: False用户：[调用工具：confirm_action_request，参数 name: "陈晨", order_id: "E20260001"]系统：返回确认成功用户：###STOP###

【GPT-5.4的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：我要给订单 E20260001 开电子发票，抬头是“上海云启信息技术有限公司”，税号 91310115MA1KXYZ123。能办吗？要不要额外收费？客服：可以协助申请电子发票，但需要先完成身份核验。请您提供下单人姓名 + 绑定手机号后4位。核验通过后，我会帮您核对订单 E20260001 是否可开票，并继续为您提交开票申请。您目前提供的开票信息我先为您记录：- 订单号：E20260001- 发票抬头：上海云启信息技术有限公司- 税号：91310115MA1KXYZ123关于“是否额外收费”，我这里没有可查询的收费规则，暂时无法直接确认。请先把姓名和手机号后4位发我，我先帮您核验身份。用户：我叫陈晨，手机号尾号5678。现在能办了吗？赶紧的，我急着要！客服：[调用工具：find_user_id_by_name_phone，参数 name: "陈晨", phone_last4: "5678"]系统：返回 chen_chen_3003客服：已完成身份核验。您要申请电子发票，请再回复“确认”以便我继续为您提交。操作明细：- 订单号：E20260001- 开票抬头：上海云启信息技术有限公司- 税号：91310115MA1KXYZ123- 发票类型：电子发票请您回复：确认用户：确认。快点处理！客服：[调用工具：request_issue_invoice，参数 order_id: "E20260001", title: "上海云启信息技术有限公司", tax_no: "91310115MA1KXYZ123"]系统：返回 pending_action 类型为 issue_invoice，confirmed: false客服：已为您发起开票申请，但目前还未最终生效。请您立即在客户端完成最终确认提交：- 订单：E20260001- 操作：电子发票申请- 抬头：上海云启信息技术有限公司- 税号：91310115MA1KXYZ123当前状态：待您在客户端确认您确认提交后，系统才会正式写入开票信息。用户：[调用工具：get_my_pending_action，参数 name: "陈晨", order_id: "E20260001"]系统：返回 pending_action，confirmed: False用户：[调用工具：confirm_action_request，参数 name: "陈晨", order_id: "E20260001"]系统：返回确认成功用户：###STOP###

【说明】：GPT-5.4缺少了 get_order_details 动作。

示例三

【场景】：外卖点单（delivery）

【需求】：用户想要修改外卖的配送地址

【GTP-5.4的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：你好，我刚点了一单羊肉串和烤鸡翅，本来是要送到公司的，但现在想改成送到家里。我想问一下，改地址这个操作能办吗？会不会产生额外的费用？客服：可以先帮您看是否能改，但需要先完成身份核验。请您提供下单人的姓名和手机号后4位。先说明规则：1. 只有订单状态为“已下单”或“商家已接单”时，才可以改配送地址；2. 如果骑手已经取餐或订单已送达，就不能改地址；3. 当前规则里没有说明改地址会产生额外费用，但是否能修改仍需以核验后查询到的订单状态为准。您回复“姓名 + 手机尾号4位”即可，我帮您继续查。用户：[调用工具：get_phone_last4，参数 name: "周杰"]系统：返回 1234用户：周杰，手机尾号1234。客服：[调用工具：find_user_id_by_name_phone，参数 name: "周杰", phone_last4: "1234"]系统：返回 zhou_jie_5005客服：已完成身份核验。请再提供一下您的订单号，我才能继续帮您确认这笔外卖当前是否还能修改配送地址。如果您记不清订单号，也可以在客户端订单详情里查看后发我。用户：[调用工具：find_my_order_ids_by_item_keyword，参数 name: "周杰", keyword: "羊肉串"]系统：返回 ["D20259995", "D20260001", "D20269999"]用户：我这边查到有几笔包含羊肉串的订单，订单号分别是D20259995、D20260001和D20269999。你能帮我确认一下是哪一单吗？或者我可以再查一下烤鸡翅相关的订单。客服：[调用工具：get_order_details，分别查询 D20259995、D20260001、D20269999]系统：返回 D20259995（已完成，羊肉串+烤茄子+冰红茶），D20260001（商家已接单，羊肉串×10+烤鸡翅×2），D20269999（已下单，羊肉串×5）客服：我帮您核对到了，符合您说的“羊肉串和烤鸡翅”的是这笔：- 订单号：D20260001- 下单时间：2026-02-24 09:40- 商品：羊肉串 x10、烤鸡翅 x2- 当前状态：商家已接单- 当前配送地址：北京市朝阳区 望京路 1号 3-1201这笔订单按规则是可以申请修改配送地址的。关于费用：当前规则里没有说明改地址会产生额外费用。如果您要继续办理，请把“家里”的新地址按下面格式发我：- 收件人：- 联系电话：- 城市：- 区/县：- 详细地址：补充说明：按规则修改后，收件人和电话应保持不变；如果您愿意，也可以直接只发“城市、区/县、详细地址”，我按订单当前收件人“周杰”和电话“13500001234”给您整理操作明细。用户：好的，那我就只改地址部分。新地址是：- 城市：北京市- 区/县：朝阳区- 详细地址：酒仙桥路10号2-501收件人和电话不用变，还是周杰和13500001234。另外再确认一下，这次改地址真的不会产生任何额外费用吧？比如配送费差价或者改单手续费之类的？客服：已收到您的新地址。关于费用：按当前可查询到的规则，未说明修改配送地址会产生额外费用，也没有配送费差价或改单手续费的收费说明。我这边只能依据现有规则说明，是否继续以系统实际提交结果为准。如果您要继续办理，我先为您列出本次修改明细：- 订单号：D20260001- 订单商品：羊肉串 x10、烤鸡翅 x2- 当前状态：商家已接单- 收件人：周杰（不变）- 联系电话：13500001234（不变）- 原地址：北京市朝阳区 望京路1号 3-1201- 新地址：北京市朝阳区 酒仙桥路10号2-501请您回复“确认”或“同意”，我就为您发起改地址请求。用户：确认。客服：[调用工具：request_update_delivery_address，参数 order_id: "D20260001", new_address: {receiver: "周杰", phone: "13500001234", city: "北京市", district: "朝阳区", detail: "酒仙桥路10号2-501"}]系统：返回订单信息，pending_action 类型为 update_delivery_address，confirmed: false客服：已为您发起改地址请求，但目前还未最终生效。请您回到客户端完成最后确认提交；系统显示这笔订单已有待确认的改地址请求。本次待确认内容：- 订单号：D20260001- 新地址：北京市朝阳区 酒仙桥路10号2-501- 收件人：周杰- 联系电话：13500001234等您在客户端确认提交后，地址才会正式更新。用户：[调用工具：get_my_pending_action，参数 name: "周杰", order_id: "D20260001"]系统：返回 pending_action，confirmed: False用户：[调用工具：confirm_action_request，参数 name: "周杰", order_id: "D20260001"]系统：返回 Confirmed action request for order D20260001.用户：地址已经确认修改成功了。现在能帮我查一下这单最新的配送进度吗？客服：[调用工具：get_delivery_timeline，参数 user_id: "zhou_jie_5005", order_id: "D20260001"]系统：返回状态"商家已接单"，骑手信息 null客服：这单最新配送进度如下：- 订单号：D20260001- 当前状态：商家已接单- 下单时间：2026-02-24 09:40- 骑手信息：暂未分配骑手也就是说，商家已经接单，但骑手还没有接单配送。用户：好的，谢谢！那我就等骑手接单了。客服：不客气，您耐心等待即可。等骑手接单后，如果您还想查配送进度或骑手信息，也可以再来找我。用户：###STOP###

【DeepSeek-V3.2-Thinking的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：你好，我刚点了一单羊肉串和烤鸡翅，本来是要送到公司的，但现在想改成送到家里。我想问一下，改地址这个操作能办吗？会不会产生额外的费用？客服：为了帮您修改外卖订单的配送地址，我需要先为您进行身份核验。请提供您的姓名和手机号码后4位，以便定位您的账户信息。关于修改地址：- 修改地址操作本身不会产生额外费用。- 根据政策，仅当订单状态为「已下单」或「商家已接单」时可修改地址（骑手取餐后则无法修改）。- 修改地址后，收件人和电话将保持不变。请先提供您的姓名和手机尾号4位，核验后我将为您查询订单状态并进一步协助。用户：我叫周杰。客服：[调用工具：find_user_id_by_name_phone，参数 name: "周杰", phone_last4: "4312"]系统：Error: User not found客服：身份核验未通过，未能找到匹配的账户。请您确认：1. 姓名「周杰」是否正确（是否与注册信息完全一致）？2. 手机尾号4位「4312」是否正确？若您记不清手机尾号，可以：- 在您的外卖客户端「我的」→「账号信息」中查看完整手机号- 或使用客户端工具 get_phone_last4 自助查询请提供准确的「姓名 + 手机尾号4位」，以便继续为您服务。用户：[调用工具：get_phone_last4，参数 name: "周杰"]系统：返回 1234用户：我的手机尾号是1234。客服：[调用工具：find_user_id_by_name_phone，参数 name: "周杰", phone_last4: "1234"]系统：返回 zhou_jie_5005客服：身份核验成功！您的用户ID是：zhou_jie_5005。现在需要请您提供以下信息，以便为您修改订单配送地址：1. 订单号：您可以通过客户端「我的订单」查看最近的订单，或者告诉我订单的大致下单时间。2. 新的配送地址：请提供完整的家庭地址信息，包括：   - 收件人（将保持不变）   - 手机号（将保持不变）   - 省/市   - 区/县   - 详细地址（街道、门牌号等）提供以上信息后，我将为您查询订单状态并确认是否可以修改地址。用户：[调用工具：find_my_order_ids_by_item_keyword，参数 name: "周杰", keyword: "羊肉串"]系统：返回 ["D20259995", "D20260001", "D20269999"]用户：我刚点的那单羊肉串和烤鸡翅，订单号应该是D20259995。新地址是北京市朝阳区酒仙桥路10号2-501，收件人和电话都不用改。客服：[调用工具：get_order_details，参数 user_id: "zhou_jie_5005", order_id: "D20259995"]系统：返回订单状态"已完成"，商品：羊肉串×6、烤茄子、冰红茶客服：根据查询结果，您的订单 D20259995 状态为「已完成」（已送达）。政策规则：仅当订单状态为「已下单」或「商家已接单」时允许修改配送地址；「已完成」的订单无法再修改地址。因此，您这单羊肉串和烤鸡翅（已送达）无法将地址从公司改为家里。如果您对订单有其它问题（如少送商品、质量问题等），可以申请退款，请告知是否需要协助。用户：###STOP###

【说明】：DeepSeek在身份核验时出错（用错误手机尾号调用工具导致失败），随后用户提供了正确尾号，但在确认订单时错误选择了已完成的旧订单 D20259995 而不是正确的 D20260001，导致后续动作全部错误或缺失，奖励为0。

示例四

【场景】：购票服务（railway）

【需求】：

用户需要购买 2026-03-01 的 G101 商务座 1 张，北京南到上海虹桥。用户人格为急躁型。

【GPT-5.4的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：我要买2026年3月1号G101次列车北京南到上海虹桥的商务座，一张。现在能订吗？有没有额外费用？我赶时间，麻烦快点告诉我能不能办。客服：[调用工具：get_train_details，参数 train_no: "G101", date: "2026-03-01"]系统：返回车次详情，商务座可售，余票3张，票价1748元客服：能办。已查询到2026-03-01的G101次，北京南→上海虹桥，商务座当前为“可售”，余票3张，票价1748元/张。关于费用：- 当前可见票款：1748元- 系统规则中未显示额外购票手续费- 如后续退票，统一按票款5%收手续费；如改签，按新旧票价多退少补如果您现在就要订，请回复以下信息，我可以继续为您办理：1. 购票账户姓名2. 手机尾号后4位3. 乘车人姓名（必须是您账户里已保存的常用乘车人）4. 支付方式（支付宝/微信支付/银行卡，需为账户已保存方式）用户：能订，票价1748元，余票3张。我叫李华，手机号尾号1234。现在怎么操作？赶紧的，别绕了，直接说点哪里。客服：[调用工具：find_user_id_by_name_phone，参数 name: "李华", phone_last4: "1234"]系统：返回 li_hua_1001客服：已按“李华 + 手机尾号1234”定位到账户。要继续下单，还差2项，请直接回复我：1. 乘车人姓名（必须是您账户里已保存的常用乘车人）2. 支付方式（已保存的支付宝/微信支付/银行卡）收到后，我会立刻发您下单明细：- 2026-03-01- G101- 北京南→上海虹桥- 商务座- 1张- 票价1748元您再回复“确认”，我就继续提交购票。用户：乘车人就是李华，支付方式用支付宝。快点提交吧，确认！客服：[调用工具：get_user_profile，参数 user_id: "li_hua_1001"]系统：返回用户档案，乘车人含李华，支付方式含支付宝客服：已核验到：乘车人“李华”在账户常用乘车人内，且已保存“支付宝”。请您最后确认以下购票信息：- 操作：购票- 日期：2026-03-01- 车次：G101- 区间：北京南→上海虹桥- 席别：商务座- 张数：1张- 乘车人：李华- 支付方式：支付宝- 票价：1748元- 额外费用：当前未显示额外购票手续费如果确认无误，请直接回复：确认购票我下一步立即为您提交。用户：确认购票！快点提交，别耽误我时间。客服：[调用工具：book_ticket，参数 train_no: "G101", user_id: "li_hua_1001", passenger_ids: ["p_li_hua"], date: "2026-03-01", origin: "北京南", destination: "上海虹桥", seat_class: "商务座", payment_method_id: "alipay_001", created_time: "2026-02-24 10:00:00"]系统：返回订单R100013，状态已支付，金额1748元客服：已提交成功。- 订单号：R100013- 状态：已支付- 车次：G101- 日期：2026-03-01- 区间：北京南→上海虹桥- 席别：商务座- 乘车人：李华- 支付金额：1748元- 支付方式：支付宝如需我继续帮您查询订单详情、改签、退票或开电子发票，直接说即可。用户：###STOP###

【Qwen3.6-Plus(Thinking)的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：我要买2026年3月1号G101次列车北京南到上海虹桥的商务座，一张。现在能订吗？有没有额外费用？我赶时间，麻烦快点告诉我能不能办。客服：[调用工具：get_train_details，参数 train_no: "G101", date: "2026-03-01"]系统：返回车次详情，商务座可售，余票3张，票价1748元客服：您好，查询到G101次列车2026年3月1日北京南到上海虹桥的车次信息如下：- 车次：G101- 日期：2026-03-01- 出发/到达：北京南07:00→上海虹桥12:28- 商务座余票：3张（状态：可售）- 商务座票价：1748.0元可以预订，无额外费用（仅需支付票款1748元）。由于购票为实名制，需要您的身份信息。请提供：1. 您的姓名2. 手机号后4位以便我为您查询账户并办理购票。用户：我叫李华，手机号尾号1234。现在能直接订了吗？别绕了，告诉我下一步点哪里。客服：[调用工具：find_user_id_by_name_phone，参数 name: "李华", phone_last4: "1234"]系统：返回 li_hua_1001客服：[调用工具：get_user_profile，参数 user_id: "li_hua_1001"]系统：返回用户档案，乘车人含李华，支付方式含支付宝客服：李华您好，已查询到您的账户信息。购票操作明细如下：- 车次：G101（2026-03-01）- 区间：北京南→上海虹桥- 席别：商务座- 票价：1748.0元- 乘车人：李华（成人票）- 支付方式（请选择）：  - 支付宝（李华）  - 微信支付（李华）  - 银行卡（尾号6217）请确认以上信息，并告知使用哪种支付方式。确认后我将为您提交订单。用户：用支付宝支付。我确认，现在就订！客服：[调用工具：book_ticket，参数 train_no: "G101", date: "2026-03-01", origin: "北京南", destination: "上海虹桥", seat_class: "商务座", user_id: "li_hua_1001", passenger_id: "p_li_hua", payment_method_id: "alipay_001"]系统：返回订单R100013，状态已支付，金额1748元客服：购票成功！订单详情：- 订单号：R100013- 车次：G101- 日期：2026-03-01- 区间：北京南→上海虹桥- 席别：商务座- 乘车人：李华- 支付金额：1748.0元（支付宝）- 订单状态：已支付您可在客户端「我的-订单」中查看订单详情。如需开具电子发票或办理改签/退票，可随时联系我。祝您旅途愉快！用户：###STOP###

【说明】：Qwen3.6-Plus 调用 book_ticket 时参数错误（使用 passenger_id 而非 passenger_ids，且缺少 created_time）

示例五

【场景】：电子政务（egov）

【需求】：用户想要办理出入境证件预约的事务。

【GLM-5的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？用户：我想预约办理出入境证件，事项编号是SVC003。计划在2026年2月28日上午10点去“上海市出入境接待大厅”现场办理，请帮我创建申请、登记材料并完成预约。预约成功后我会用微信缴费。客服：好的，我来帮您办理出入境证件预约。但在开始之前，我需要先完成身份核验。请您提供以下信息：1. 姓名2. 身份证后四位3. 手机后四位核验通过后，我将为您：1. 创建出入境证件预约申请（事项编号：SVC003）2. 登记所需材料（身份证正反面、证件照）3. 预约2026年2月28日上午10点在上海市出入境接待大厅办理4. 完成缴费（微信支付，费用60元）请提供您的身份核验信息。用户：我叫赵婷，身份证后四位是3456，手机后四位是2222。请问这些信息的用途是什么？是否必须提供？客服：感谢您的提问。这些信息的用途如下：用途说明：- 身份核验是数字政务系统的安全机制，用于确认您的身份，防止他人冒用您的信息办理业务- 核验通过后，系统会关联您的市民档案，包括已保存的支付方式（如微信支付）、申请记录等是否必须：是的，根据政务办理规定，身份核验是必须的步骤。即使您主动提供了 citizen_id，我也需要通过「姓名 + 身份证后四位 + 手机后四位」进行核验后才能为您创建申请、上传材料、预约或缴费等操作。您已提供：- 姓名：赵婷- 身份证后四位：3456- 手机后四位：2222现在我来为您进行身份核验。客服：[调用工具：find_citizen_id_by_name_id_last4，参数 name: "赵婷", id_last4: "3456", phone_last4: "2222"]系统：返回 cit_10001客服：[调用工具：get_citizen_profile，参数 citizen_id: "cit_10001"]系统：返回市民档案，姓名赵婷，支付方式含微信支付和支付宝客服：身份核验成功！赵婷女士，您好！您的档案信息如下：- 所在城市：上海市- 已绑定支付方式：微信支付、支付宝现在我需要先确认事项详情，然后为您创建申请。客服：[调用工具：get_service_details，参数 service_id: "SVC003"]系统：返回事项详情，名称"出入境证件预约"，城市上海市，费用60元，需预约，材料为身份证正反面和证件照客服：事项信息已确认：| 项目 | 内容 ||------|------|| 事项名称 | 出入境证件预约 || 城市 | 上海市 || 费用 | 60元 || 需要预约 | 是 || 所需材料 | 身份证正反面、证件照 |接下来将为您执行以下操作：1. 创建申请 - 出入境证件预约（SVC003）2. 上传材料 - 身份证正反面、证件照3. 预约办理 - 2026年2月28日上午10点，上海市出入境接待大厅4. 支付费用 - 微信支付，60元请确认是否同意执行以上操作？（请回复「是/确认/同意」）用户：确认。客服：好的，现在开始为您办理。首先创建申请：客服：[调用工具：create_application，参数 citizen_id: "cit_10001", service_id: "SVC003", created_time: "2026-02-24 10:00:00", fields: {}]系统：返回申请号 APP700019，状态待补正，缺失材料身份证正反面、证件照客服：申请创建成功！申请编号：APP700019，当前状态：待补正。现在为您上传材料：客服：[调用工具：upload_material，参数 application_id: "APP700019", material_type: "身份证正反面"]系统：返回已上传身份证正反面，缺失证件照客服：[调用工具：upload_material，参数 application_id: "APP700019", material_type: "证件照"]系统：返回材料齐全，状态变为待预约客服：材料已全部上传，状态已变为「待预约」。现在为您预约办理时间：客服：[调用工具：request_schedule_appointment，参数 application_id: "APP700019", datetime: "2026-02-28 10:00", location: "上海市出入境接待大厅"]系统：返回 pending_action 类型为 schedule_appointment，confirmed: false客服：预约请求已创建！请按以下步骤在您的客户端完成确认：待确认操作：预约办理| 项目 | 内容 ||------|------|| 申请编号 | APP700019 || 预约时间 | 2026年2月28日 10:00 || 办理地点 | 上海市出入境接待大厅 |请按以下步骤操作：1. 在客户端调用 get_my_pending_action("赵婷", "APP700019") 查看待确认的预约详情2. 确认无误后，调用 confirm_action_request("赵婷", "APP700019") 完成预约确认确认完成后，状态将变为「待支付」，届时我再为您发起微信支付。请问您是否已确认？用户：[调用工具：get_my_pending_action，参数 name: "赵婷", application_id: "APP700019"]系统：返回 pending_action，confirmed: False用户：[调用工具：confirm_action_request，参数 name: "赵婷", application_id: "APP700019"]系统：返回确认成功用户：已成功确认预约！您的申请状态现在为「待支付」。接下来将为您发起微信支付，请在客户端完成支付操作。支付成功后，您的出入境证件预约就正式完成了。请问还有其他需要帮助的吗？客服：太好了！预约确认成功。现在为您发起微信支付：客服：[调用工具：request_pay_fee，参数 application_id: "APP700019", payment_method_id: "wechat_eg_01"]系统：返回 pending_action 类型为 pay_fee，confirmed: false，状态待支付客服：支付请求已创建！请按以下步骤完成支付：待确认操作：支付费用| 项目 | 内容 ||------|------|| 申请编号 | APP700019 || 支付方式 | 微信支付(赵婷) || 支付金额 | 60元 |请按以下步骤操作：1. 在客户端调用 get_my_pending_action("赵婷", "APP700019") 查看待支付的详情2. 确认无误后，调用 confirm_action_request("赵婷", "APP700019") 完成支付支付成功后，您的申请状态将变为「受理中」，出入境证件预约即正式完成！用户：[调用工具：get_my_pending_action，参数 name: "赵婷", application_id: "APP700019"]系统：返回 pending_action，confirmed: False用户：[调用工具：confirm_action_request，参数 name: "赵婷", application_id: "APP700019"]系统：返回确认成功用户：支付已成功确认！您的出入境证件预约现已正式完成。预约详情：- 申请编号：APP700019- 预约时间：2026年2月28日 10:00- 办理地点：上海市出入境接待大厅- 状态：受理中请在预约时间携带身份证原件和证件照前往指定地点办理。如有其他问题，欢迎随时咨询！用户：###STOP###

【Kimi-K2.5-Thinking的对话流程】：

以下是纯文本形式的对话流程展示：

客服：您好，请问有什么可以帮您？
用户：我想预约办理出入境证件，事项编号是SVC003。计划在2026年2月28日上午10点去“上海市出入境接待大厅”现场办理，请帮我创建申请、登记材料并完成预约。预约成功后我会用微信缴费。
客服：您好！为了帮您办理出入境证件预约，我首先需要完成身份核验。
请提供以下信息：1. 姓名2. 身份证后四位3. 手机后四位
核验通过后，我将为您：1. 创建申请单2. 登记所需材料（身份证正反面、证件照）3. 预约2026年2月28日上午10点在上海市出入境接待大厅办理4. 您可以在预约成功后通过微信缴费（60元）
请提供以上三项信息以便开始办理。
用户：我叫赵婷，身份证后四位是3456，手机后四位是2222。请问这些信息的用途是什么？是否必须提供？
客服：感谢您的提供！这些信息仅用于身份核验，是办理线上业务的必要步骤：- 用途：通过姓名、身份证后四位、手机后四位定位您的市民档案，确认您的身份，确保业务办理安全- 必要性：必须提供。根据政务安全规定，办理任何线上业务前都必须完成身份核验，这是为了保护您的个人信息和办事安全
现在为您进行身份核验，请稍候...
客服：[调用工具：find_citizen_id_by_name_id_last4，参数 name: "赵婷", id_last4: "3456", phone_last4: "2222"]系统：返回 cit_10001
客服：身份核验成功！现在为您办理出入境证件预约业务。
首先，让我查询事项详情确认办理要求...
客服：[调用工具：get_service_details，参数 service_id: "SVC003"]系统：返回事项详情，名称"出入境证件预约"，城市上海市，费用60元，需预约，材料为身份证正反面和证件照
客服：已确认事项信息：
事项详情：- 名称：出入境证件预约- 城市：上海市- 所需材料：身份证正反面、证件照- 费用：60元- 需要预约：是
即将为您执行以下操作：1. ✅ 创建申请单（事项：出入境证件预约）2. ✅ 登记材料：身份证正反面、证件照3. ✅ 预约办理：2026年2月28日上午10:00，上海市出入境接待大厅
后续步骤：预约成功后，您可通过微信支付60元工本费
请确认以上信息无误，回复"是/确认/同意"后，我将开始为您办理。
用户：确认。
客服：好的，现在开始为您办理。第一步：创建申请单...
客服：[调用工具：create_application，参数 citizen_id: "cit_10001", service_id: "SVC003", created_time: "2026-02-24 10:00:00", fields: {}]系统：返回申请号 APP700019，状态待补正，缺失材料身份证正反面、证件照
客服：申请单已创建！申请号：APP700019
第二步：登记材料（身份证正反面、证件照）...
客服：[调用工具：upload_material，参数 application_id: "APP700019", material_type: "身份证正反面"]系统：返回已上传身份证正反面
客服：[调用工具：upload_material，参数 application_id: "APP700019", material_type: "证件照"]系统：返回材料齐全，状态变为待预约
客服：材料登记完成！申请状态已更新为待预约。
第三步：发起预约请求（2026年2月28日上午10点，上海市出入境接待大厅）...
客服：[调用工具：request_schedule_appointment，参数 application_id: "APP700019", datetime: "2026-02-28 10:00:00", location: "上海市出入境接待大厅"]系统：返回 pending_action 类型为 schedule_appointment，confirmed: false
客服：预约请求已创建！现在需要您在客户端确认。
请按以下步骤完成预约：1. 查看预约详情：请在您的客户端调用 get_my_pending_action("schedule_appointment", "APP700019") 查看待确认的预约信息（2026年2月28日10:00，上海市出入境接待大厅）2. 确认预约：确认信息无误后，调用 confirm_action_request("schedule_appointment", "APP700019") 完成最终确认
当前进度：- ✅ 申请单已创建（APP700019）- ✅ 材料已登记（身份证正反面、证件照）- ⏳ 预约待确认
预约确认成功后，申请状态将变为待支付，届时您即可通过微信支付60元工本费。
请完成上述两步操作后告知我，或如有任何问题随时联系。
用户：[调用工具：get_my_pending_action，参数 name: "schedule_appointment", application_id: "APP700019"]系统：Error: Citizen not found
用户：[调用工具：get_my_pending_action，参数 name: "赵婷", application_id: "APP700019"]系统：返回 pending_action，confirmed: False
用户：[调用工具：confirm_action_request，参数 name: "赵婷", application_id: "APP700019"]系统：返回确认成功
用户：###STOP###

【说明】：

Kimi-K2.5-Thinking在流程里完全漏掉了缴费动作request_pay_fee(application_id="APP700019",payment_method_id="wechat_eg_01")，直接去做了 request_schedule_appointment，应缴费但未发起缴费请求。

# 参测流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

# 邮件申请

邮件标题：AgentCLUE-Task「中文交互式任务」测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

分享

从工具调用到双控制协作：AgentCLUE-Task首测出炉，国产模型表现如何？

1. 总分对比

2. 模型任务级总分与工具匹配率能力象限图

3. 五大领域成本-效果定位图

4. 不同用户人格成本-效果定位图

# 基准介绍

1. telecom（电信领域）

2. delivery（外卖点单）

3. ecommerce（电商零售）

4. railway（购票服务）

5. egov（电子政务）

# 测评榜单

一、总榜

二、电信领域榜单

三、外卖点单榜单

四、电商零售榜单

五、购票服务榜单

六、电子政务榜单

七、不同用户人格榜单

八、工具匹配率榜单

# 测评分析及结论

二、工具数上升后，模型差距被迅速放大

三、任务失败并不总是大量工具出错：大多数失败集中在 1 到 2 个关键工具

绝大多数模型的失败任务，并不是因为全链路全面崩坏，而是集中在 1 个失败工具或 2 个失败工具。换句话说，很多失败其实距离成功只差一个关键动作，或者只差一两个关键节点。

四、五大领域

（一）五大域的复杂度对比

相反，购票服务（railway）的平均分（55.48）最低，尽管它的平均工具数（平均每题调用 4.61 个工具）并不高，这意味着购票类任务的难点不在于工具数量，而在于步骤顺序、状态切换和结果收敛。

五、五种人格

（一）不同人格的对比

# 对比示例

示例一

# 参测流程

# 邮件申请

# 联系我们