
SuperCLUE团队
2026/05
点击 文末阅读原文 或 复制下方网址到浏览器 即可跳转SuperCLUE官网查看完整的测评内容:
SuperCLUE官网地址:www.superclueai.com

一、SuperCLUE智能指数(2026年5月)



四、性价比区间分布(2026年5月)

五、推理效能区间分布(2026年5月)



测评摘要
海外头部模型占据第一梯队,Gemini-3.1-Pro-Preview(high)以75.73分领跑榜单,GPT-5.5(high)、Claude-Opus-4.7(high)和Gemini-3.5-Flash分别以74.27分、73.52分和71.51分紧随其后。DeepSeek-V4-Pro(max)(70.48分)、Qwen3.7-Max(Thinking)(70.22分)和Doubao-Seed-2.0-pro-260215(high)(69.96分)并列国内第一,竞争激烈,加速追赶海外头部模型。
测评要点2. 海内外头部模型在代码生成任务上竞争激烈。
海外模型Gemini-3.1-Pro-Preview(high)以81.47分领跑代码生成榜单,国内模型Qwen3.7-Max(Thinking)以79.69分位居榜单第二,与第一相差仅1.78分,实力不俗。Kimi-K2.6-Thinking和DeepSeek-V4-Pro(max)分别以75.79分和74.95分紧随其后。
测评要点3. 国产模型主导中高性价比区。
国产模型在中高性价比区形成绝对主导优势。DeepSeek-V4系列、Doubao-Seed-2.0系列等5个国产模型均处于高性价比区间,以更低的API价格实现了更高的推理质量。海外模型仅Gemini-3.5-Flash(high)进入中性价比区间,其余海外模型均位于低性价比区。
测评要点4. 海内外模型推理效能差距显著。
海外模型在高效能区形成垄断优势。Gemini-3.1-Pro-Preview(high)、Gemini-3.5-Flash(high)、Claude-Opus-4.7(high)独占高效能区。国内模型全部分布在中低效能区,中效能区仅有Qwen系列、ERNIE 5.1等4款模型,大部分模型位于低效能区,如Doubao-Seed-2.0系列、Kimi-K2.6-Thinking、GLM-5.1、DeepSeek-V4系列等。
中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行实时跟踪,本次2026年5月通用基准测评共有21个国内外模型参与,测评集包括六大任务:数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制,共492题。本次测评的详细介绍可见:2026年5月中文通用大模型测评通知!

测评结果与分析
一、代码生成任务对比分析
1. 海内外头部模型(Top3)在代码生成任务上竞争激烈,海外略优。

数据来源:SuperCLUE, 2026年5月28日。
注:
1. 代码生成任务最终得分由SWE(软件工程)、独立函数生成任务、Web Coding任务三大子任务求平均后得到,总分=(SWE得分 + 独立函数生成得分 + Web Coding得分)/ 3 ;
2. 绿色条形中间的数字为SWE(软件工程)任务加权后的分数,蓝色条形中间的数字为独立函数生成任务加权后的分数,橙色条形中间的数字为Web Coding任务加权后的分数,条形图最右边的数字为三大子任务加权求和得到的总分;
3. 图中展示时子任务的分数会保留两位小数,因为求和时会产生累计误差,但总分按照(SWE得分 + 独立函数生成得分 + Web Coding得分)/ 3 进行计算,不会产生累计误差。
2. 任务难度越高,模型能力差距越显著。

结合平均分与标准差来看,三个子任务呈现 “平均分越高,标准差越低;平均分越低,标准差越高” 的反向对应关系:独立函数生成以 86.89 分的最高平均分,搭配 4.95 的最低标准差,说明模型在该任务上普遍表现优异,且能力高度趋同,差距极小;Web Coding 以 77.04 分的中等平均分,对应 8.57 的中等标准差,模型能力分化程度中等;SWE (软件工程) 以 38.41 分的最低平均分,对应 15.55 的最高标准差,说明该任务中模型能力分化最极致,头部模型可达到较优表现,但尾部模型表现很差。
3. 代码生成三大子任务得分对比图
(1)SWE(软件工程)
Qwen3.7-Max(Thinking)和Gemini-3.1-Pro-Preview(high)以66.67分并列SWE(软件工程)任务榜单第一,表现优秀。Kimi-K2.6-Thinking和DeepSeek-V4-Pro(max)以53.33分并列国内第二,超过Gemini-3.5-Flash(high)、GPT-5.5(high)等海外头部模型。

(2)Web Coding
海外头部模型GPT-5.5(high)、Claude-Opus-4.7(high)、Gemini-3.1-Pro-Preview(high)分别以86.94分、86.63分和83.89分占据Web Coding榜单前三,国内的DeepSeek-V4系列、Kimi-K2.6-Thinking、MiMo-V2.5-Pro、Qwen3.6-Max-Preview(Thinking)得分均在82分左右,并列国内第一,与海外头部模型存在4分左右的差距。

(3)独立函数生成
Qwen3.7-Max(Thinking)以93.84的高分与Gemini-3.1-Pro-Preview(high)并列独立函数生成榜单榜首,Kimi-K2.6-Thinking和GLM-5.1均以91.78分并列国际第二,媲美海外头部模型Claude-Opus-4.7(high)。

二、海内外大模型对比分析
1. 海外模型整体领先幅度较大,国内模型在智能体任务上实现突破。

海外模型整体平均分(68.12分)较国内模型(62.41分)有较大领先,并且海外模型在幻觉控制、精确指令遵循、代码生成、科学推理和数学推理等五大任务上的平均分均高于国内模型,尤其是在精确指令遵循任务上差距最大,海外模型领先国内模型10.99分。在智能体(任务规划)上,国内模型以1分左右的微弱优势领先海外模型。
2. 海内外模型六大任务对比图
(1)数学推理
DeepSeek-V4-Flash(max)以82.69分夺得数学推理榜单第一,实力强悍,Qwen3.7-Max(Thinking)以82.46分与海外顶尖模型Gemini-3.1-Pro-Preview(high)、GPT-5.5(high)、Gemini-3.5-Flash(high)并列榜单第二,超越Claude-Opus-4.7(high)等海外模型,表现优异。

(2)科学推理
Doubao-Seed-2.0-pro-260215(high)以75.44分与Gemini-3.5-Flash(high)并列科学推理榜单第一,Qwen3.7-Max(Thinking)以73.68分位于全球第二,超越海外顶尖模型Gemini-3.1-Pro-Preview(high)、GPT-5.5(high)、Claude-Opus-4.7(high)等,表现不俗。

(3)代码生成

(4)智能体(任务规划)

(5)精确指令遵循

(6)幻觉控制

三、开闭源大模型对比分析

闭源模型相较于开源模型整体有一定的领先,精确指令遵循领先幅度较大。
闭源模型整体平均分(68.22分)较开源模型(66.60分)有一定的领先,并且闭源模型在六大任务上的平均分均高于开源模型,尤其是在精确指令遵循任务上差距最大,闭源模型领先开源模型16.84分,体现出闭源模型在特定任务上的稳固优势。
三、性价比区间分布(2026年5月)

国产模型主导中高性价比区,海外模型多集中于低性价比区。
国产模型在中高性价比区形成绝对主导优势。具体而言,Doubao-Seed-2.0系列模型、DeepSeek-V4系列模型、Kimi-K2.6-Thinking等5个国产模型均处于高性价比区间,以更低的API价格实现了更高的推理质量,在得分与成本的平衡上表现突出。
在海外模型中,仅Gemini-3.5-Flash(high)一款海外模型进入中性价比区间,其余海外模型均位于低性价比区,如Claude-Opus-4.7(high)、GPT-5.5(high)、Gemini-3.1-Pro-Preview(high)等海外头部模型,这些模型虽然推理质量顶尖,但API价格远超国产模型,性价比优势不足。
四、推理效能区间分布(2026年5月)

海外模型主导高效能区,国产模型分布零散,推理效能差距显著。
从推理效能区间分布来看,海外模型在高效能区形成垄断优势。Gemini-3.1-Pro-Preview(high)、Gemini-3.5-Flash(high)、Claude-Opus-4.7(high)三款海外模型独占高效能区。
国内模型全部分布在中低效能区,效能提升空间较大。中效能区仅有Qwen3.7-Max(Thinking)、Qwen3.6-Max-Preview(Thinking)、Qwen3.6-27B(Thinking)和ERNIE 5.1等4款国内模型占据。国内模型大部分位于低效能区,如Doubao-Seed-2.0系列、Kimi-K2.6-Thinking、GLM-5.1、DeepSeek-V4系列等。
五、主流大模型参数效率对比(2026年5月)

Pareto 前沿:如果一个模型不能被另一个模型“同时用更少参数、拿更高分数”打败,它就在前沿上。比如一个点在本图中如果左上方没有其他模型能压住它,它就是 Pareto 前沿。
1. 边际收益递减定律极其显著。
参数规模从 27B 增长到 1600B(增长约 59 倍),但智能综合指数仅从 61.95 分提升至 70.48 分(仅增长约 13.77%)。这一数据清晰表明:参数规模对性能的拉动作用似乎已进入瓶颈期。
2. 近似参数下,模型的性能差异巨大。
在相同参数量级下,不同模型的性能差距可达 20% 以上:
(1)约 1000B 参数区间:Kimi-K2.6-Thinking(1000B,68.66 分)比 MiMo-V2.5-Pro(1020B,57.31 分)高出 11.35 分;
(2)约 300B 参数区间:DeepSeek-V4-Flash (max)(284B,67.49 分)比 Hy3 preview (high)(295B,49.61 分)高出 17.88 分,比Spark-X2(293B,54.53分)高出 12.96 分。
3. 小参数模型的崛起。
Qwen3.6-27B(Thinking)(2.2946分/B)、Gemma-4-31B(1.8744分/B)、Step-3.5-Flash(0.2772分/B)的参数量均在200B以下,且均位于高参数效率区间,是单位参数性价比最高的三个模型。

六、评测与人类一致性验证:对比Arena
Arena是当前英文领域较为权威的大模型排行榜,它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。
我们将SuperCLUE得分与Arena得分进行相关性计算,得到:
皮尔逊相关系数:0.755,p<0.001;
斯皮尔曼相关系数:0.724,p<0.001。
说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的Arena为典型代表),具有较高的一致性。

数据来源:SuperCLUE,2026年5月28日。
注:
斯皮尔曼相关系数:用于衡量两个变量之间的单调关系,取值为[-1,1],该系数的绝对值越接近1表示两个变量之间的相关性越强;
皮尔逊相关系数:用于衡量两个连续变量之间的线性相关程度,取值为[-1,1],该系数的绝对值越接近1表示两个变量之间的相关性越强。
附:
2026年5月通用测评模型列表

测评的更多详细内容,请点击文章下方 阅读原文 或 复制以下链接到浏览器 查看:
https://www.superclueai.com


扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
