2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！

SuperCLUE团队

2026/05

点击文末阅读原文或复制下方网址到浏览器即可跳转SuperCLUE官网查看完整的测评内容：

SuperCLUE官网地址：www.superclueai.com

榜单概览

一、SuperCLUE智能指数（2026年5月）

二、开源模型对比（2026年5月）

三、模型象限图（2026年5月）

四、性价比区间分布（2026年5月）

五、推理效能区间分布（2026年5月）

六、主流大模型参数效率对比（2026年5月）

七、总体表现（2026年5月）

测评摘要

测评要点1. 海外头部模型持续领跑，DeepSeek、Qwen3.7、豆包竞争激烈。

海外头部模型占据第一梯队，Gemini-3.1-Pro-Preview(high)以75.73分领跑榜单，GPT-5.5(high)、Claude-Opus-4.7(high)和Gemini-3.5-Flash分别以74.27分、73.52分和71.51分紧随其后。DeepSeek-V4-Pro(max)(70.48分)、Qwen3.7-Max(Thinking)(70.22分)和Doubao-Seed-2.0-pro-260215(high)(69.96分)并列国内第一，竞争激烈，加速追赶海外头部模型。

测评要点2. 海内外头部模型在代码生成任务上竞争激烈。

海外模型Gemini-3.1-Pro-Preview(high)以81.47分领跑代码生成榜单，国内模型Qwen3.7-Max(Thinking)以79.69分位居榜单第二，与第一相差仅1.78分，实力不俗。Kimi-K2.6-Thinking和DeepSeek-V4-Pro(max)分别以75.79分和74.95分紧随其后。

测评要点3. 国产模型主导中高性价比区。

国产模型在中高性价比区形成绝对主导优势。DeepSeek-V4系列、Doubao-Seed-2.0系列等5个国产模型均处于高性价比区间，以更低的API价格实现了更高的推理质量。海外模型仅Gemini-3.5-Flash(high)进入中性价比区间，其余海外模型均位于低性价比区。

测评要点4. 海内外模型推理效能差距显著。

海外模型在高效能区形成垄断优势。Gemini-3.1-Pro-Preview(high)、Gemini-3.5-Flash(high)、Claude-Opus-4.7(high)独占高效能区。国内模型全部分布在中低效能区，中效能区仅有Qwen系列、ERNIE 5.1等4款模型，大部分模型位于低效能区，如Doubao-Seed-2.0系列、Kimi-K2.6-Thinking、GLM-5.1、DeepSeek-V4系列等。

中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行实时跟踪，本次2026年5月通用基准测评共有21个国内外模型参与，测评集包括六大任务：数学推理、科学推理、代码生成、智能体（任务规划）、精确指令遵循、幻觉控制，共492题。本次测评的详细介绍可见：2026年5月中文通用大模型测评通知！

测评结果与分析

一、代码生成任务对比分析

1. 海内外头部模型（Top3）在代码生成任务上竞争激烈，海外略优。

在代码生成任务上，海外Top3分别为Gemini-3.1-Pro-Preview(high)（81.47）、Claude-Opus-4.7(high)（79.01）、GPT-5.5(high)（72.88），国内Top3分别为Qwen3.7-Max(Thinking)（79.69）、Kimi-K2.6-Thinking（75.79）、DeepSeek-V4-Pro(max)（74.95），海内外顶尖模型之间竞争激烈，海外Top3平均分77.79分，领先国内（76.81分）不到1分，领先幅度甚微，国内顶尖模型在代码生成任务上的进步显著。

数据来源：SuperCLUE, 2026年5月28日。

注：

1. 代码生成任务最终得分由SWE(软件工程)、独立函数生成任务、Web Coding任务三大子任务求平均后得到，总分=（SWE得分 + 独立函数生成得分 + Web Coding得分）/ 3 ；

2. 绿色条形中间的数字为SWE(软件工程)任务加权后的分数，蓝色条形中间的数字为独立函数生成任务加权后的分数，橙色条形中间的数字为Web Coding任务加权后的分数，条形图最右边的数字为三大子任务加权求和得到的总分；

3. 图中展示时子任务的分数会保留两位小数，因为求和时会产生累计误差，但总分按照（SWE得分 + 独立函数生成得分 + Web Coding得分）/ 3 进行计算，不会产生累计误差。

2. 任务难度越高，模型能力差距越显著。

结合平均分与标准差来看，三个子任务呈现 “平均分越高，标准差越低；平均分越低，标准差越高” 的反向对应关系：独立函数生成以 86.89 分的最高平均分，搭配 4.95 的最低标准差，说明模型在该任务上普遍表现优异，且能力高度趋同，差距极小；Web Coding 以 77.04 分的中等平均分，对应 8.57 的中等标准差，模型能力分化程度中等；SWE (软件工程) 以 38.41 分的最低平均分，对应 15.55 的最高标准差，说明该任务中模型能力分化最极致，头部模型可达到较优表现，但尾部模型表现很差。

3. 代码生成三大子任务得分对比图

（1）SWE(软件工程)

Qwen3.7-Max(Thinking)和Gemini-3.1-Pro-Preview(high)以66.67分并列SWE(软件工程)任务榜单第一，表现优秀。Kimi-K2.6-Thinking和DeepSeek-V4-Pro(max)以53.33分并列国内第二，超过Gemini-3.5-Flash(high)、GPT-5.5(high)等海外头部模型。

（2）Web Coding

海外头部模型GPT-5.5(high)、Claude-Opus-4.7(high)、Gemini-3.1-Pro-Preview(high)分别以86.94分、86.63分和83.89分占据Web Coding榜单前三，国内的DeepSeek-V4系列、Kimi-K2.6-Thinking、MiMo-V2.5-Pro、Qwen3.6-Max-Preview(Thinking)得分均在82分左右，并列国内第一，与海外头部模型存在4分左右的差距。

（3）独立函数生成

Qwen3.7-Max(Thinking)以93.84的高分与Gemini-3.1-Pro-Preview(high)并列独立函数生成榜单榜首，Kimi-K2.6-Thinking和GLM-5.1均以91.78分并列国际第二，媲美海外头部模型Claude-Opus-4.7(high)。

二、海内外大模型对比分析

1. 海外模型整体领先幅度较大，国内模型在智能体任务上实现突破。

海外模型整体平均分（68.12分）较国内模型（62.41分）有较大领先，并且海外模型在幻觉控制、精确指令遵循、代码生成、科学推理和数学推理等五大任务上的平均分均高于国内模型，尤其是在精确指令遵循任务上差距最大，海外模型领先国内模型10.99分。在智能体(任务规划)上，国内模型以1分左右的微弱优势领先海外模型。

2. 海内外模型六大任务对比图

（1）数学推理

DeepSeek-V4-Flash(max)以82.69分夺得数学推理榜单第一，实力强悍，Qwen3.7-Max(Thinking)以82.46分与海外顶尖模型Gemini-3.1-Pro-Preview(high)、GPT-5.5(high)、Gemini-3.5-Flash(high)并列榜单第二，超越Claude-Opus-4.7(high)等海外模型，表现优异。

（2）科学推理

Doubao-Seed-2.0-pro-260215(high)以75.44分与Gemini-3.5-Flash(high)并列科学推理榜单第一，Qwen3.7-Max(Thinking)以73.68分位于全球第二，超越海外顶尖模型Gemini-3.1-Pro-Preview(high)、GPT-5.5(high)、Claude-Opus-4.7(high)等，表现不俗。

（3）代码生成

海内外模型竞争激烈，海外头部模型略有领先。Gemini-3.1-Pro-Preview(high)以81.47分领跑全球，Qwen3.7-Max(Thinking)以79.69分位于榜单第二，Claude-Opus-4.7(high)以79.01分位居第三，Kimi-K2.6-Thinking和DeepSeek-V4-Pro(max)分别以75.79分和74.95分位于国内前三。

（4）智能体(任务规划)

GPT-5.5(high)以86.56分领跑榜单，国内头部模型整体表现不俗：Qwen3.6-Max-Preview(Thinking)、Kimi-K2.6-Thinking均有超过80分的优异表现，DeepSeek-V4-Pro(max)、Doubao-Seed-2.0-pro-260215(high)紧随其后，媲美海外顶尖模型Claude-Opus-4.7(high)。

（5）精确指令遵循

海外头部模型和国内头部模型差异显著，海外模型Gemini-3.1-Pro-Preview(high)、Claude-Opus-4.7(high)、GPT-5.5(high)均有超过50分的表现，国内模型仅有DeepSeek-V4-Pro(max)、ERNIE 5.1、Doubao-Seed-2.0系列模型有40-50分的表现。

（6）幻觉控制

海外头部模型在幻觉控制任务上整体较优，海外模型GPT-5.5(high)、Gemini-3.1-Pro-Preview(high)、Gemini-3.5-Flah(high)占据榜单前三。Qwen3.6-Max-Preview(Thinking)和Qwen3.7-Max(Thinking)分别以85.14分和82.91分位于国内前二，表现不俗。

三、开闭源大模型对比分析

闭源模型相较于开源模型整体有一定的领先，精确指令遵循领先幅度较大。

闭源模型整体平均分（68.22分）较开源模型（66.60分）有一定的领先，并且闭源模型在六大任务上的平均分均高于开源模型，尤其是在精确指令遵循任务上差距最大，闭源模型领先开源模型16.84分，体现出闭源模型在特定任务上的稳固优势。

三、性价比区间分布（2026年5月）

国产模型主导中高性价比区，海外模型多集中于低性价比区。

国产模型在中高性价比区形成绝对主导优势。具体而言，Doubao-Seed-2.0系列模型、DeepSeek-V4系列模型、Kimi-K2.6-Thinking等5个国产模型均处于高性价比区间，以更低的API价格实现了更高的推理质量，在得分与成本的平衡上表现突出。

在海外模型中，仅Gemini-3.5-Flash(high)一款海外模型进入中性价比区间，其余海外模型均位于低性价比区，如Claude-Opus-4.7(high)、GPT-5.5(high)、Gemini-3.1-Pro-Preview(high)等海外头部模型，这些模型虽然推理质量顶尖，但API价格远超国产模型，性价比优势不足。

四、推理效能区间分布（2026年5月）

海外模型主导高效能区，国产模型分布零散，推理效能差距显著。

从推理效能区间分布来看，海外模型在高效能区形成垄断优势。Gemini-3.1-Pro-Preview(high)、Gemini-3.5-Flash(high)、Claude-Opus-4.7(high)三款海外模型独占高效能区。

国内模型全部分布在中低效能区，效能提升空间较大。中效能区仅有Qwen3.7-Max(Thinking)、Qwen3.6-Max-Preview(Thinking)、Qwen3.6-27B(Thinking)和ERNIE 5.1等4款国内模型占据。国内模型大部分位于低效能区，如Doubao-Seed-2.0系列、Kimi-K2.6-Thinking、GLM-5.1、DeepSeek-V4系列等。

五、主流大模型参数效率对比（2026年5月）

Pareto 前沿：如果一个模型不能被另一个模型“同时用更少参数、拿更高分数”打败，它就在前沿上。比如一个点在本图中如果左上方没有其他模型能压住它，它就是 Pareto 前沿。

1. 边际收益递减定律极其显著。

参数规模从 27B 增长到 1600B（增长约 59 倍），但智能综合指数仅从 61.95 分提升至 70.48 分（仅增长约 13.77%）。这一数据清晰表明：参数规模对性能的拉动作用似乎已进入瓶颈期。

2. 近似参数下，模型的性能差异巨大。

在相同参数量级下，不同模型的性能差距可达 20% 以上：

（1）约 1000B 参数区间：Kimi-K2.6-Thinking（1000B，68.66 分）比 MiMo-V2.5-Pro（1020B，57.31 分）高出 11.35 分；

（2）约 300B 参数区间：DeepSeek-V4-Flash (max)（284B，67.49 分）比 Hy3 preview (high)（295B，49.61 分）高出 17.88 分，比Spark-X2（293B，54.53分）高出 12.96 分。

3. 小参数模型的崛起。

Qwen3.6-27B(Thinking)（2.2946分/B）、Gemma-4-31B（1.8744分/B）、Step-3.5-Flash（0.2772分/B）的参数量均在200B以下，且均位于高参数效率区间，是单位参数性价比最高的三个模型。

六、评测与人类一致性验证：对比Arena

Arena是当前英文领域较为权威的大模型排行榜，它以公众匿名投票的方式，对各种大型语言模型进行对抗评测。

我们将SuperCLUE得分与Arena得分进行相关性计算，得到:

皮尔逊相关系数：0.755，p<0.001；

斯皮尔曼相关系数：0.724，p<0.001。

说明SuperCLUE基准测评的成绩，与人类对模型的评估（以大众匿名投票的Arena为典型代表），具有较高的一致性。

数据来源：SuperCLUE，2026年5月28日。

注：

斯皮尔曼相关系数：用于衡量两个变量之间的单调关系，取值为[-1,1]，该系数的绝对值越接近1表示两个变量之间的相关性越强；

皮尔逊相关系数：用于衡量两个连续变量之间的线性相关程度，取值为[-1,1]，该系数的绝对值越接近1表示两个变量之间的相关性越强。

附：

2026年5月通用测评模型列表

测评的更多详细内容，请点击文章下方阅读原文或复制以下链接到浏览器查看：

https://www.superclueai.com

欢迎加入【通用测评】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

菜单

分享

2026年5月中文大模型基准测评结果发布！DeepSeek、Qwen3.7、豆包竞争激烈！

1. 海外模型整体领先幅度较大，国内模型在智能体任务上实现突破。

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业