lch
发布于 2026-04-28 / 0 阅读
0

2026年5月中文通用大模型测评通知!



SuperCLUE-2026年5月通用大模型测评通知

各位好:

为全面评估截至2026年5月中文大模型的综合性能和发展进程,SuperCLUE团队计划将于2026年5月28日发布中文大模型通用基准测评2026年5月测评结果》
本次测评将延续2026年3月SuperCLUE通用测评基准体系:2026年3月中文通用大模型测评通知!,仅对各大任务内部的子类类别和难度作出部分变化。

时间安排

即日起-2026年5月13:报名申请、模型对接

5月14日-5月21日:模型测评

5月22日-5月25日:结果统计

5月28:发布文章


测评说明

1

总分计算规则

2026年5月SuperCLUE通用基准测评总分由六大核心任务的得分构成,每部分的权重相同。即:

总分=(数学推理+科学推理+代码生成+智能体(任务规划)+精确指令遵循+幻觉控制)/6


2

最大尝试次数与最大延时设置

针对每个题目,每个模型有最多3次回答的机会(即如果没有正常获取答案,可尝试的次数);每次请求的超时时长为30分钟;3次尝试均未获取到答案的题目计0分。


参与方式

请各大模型团队于2026年5月13日18:00前使用单位邮箱参与申请,发送至:

contact@superclue.ai

邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。


其他

(一)发布形式

2026年5月基准测评将会发布【总榜】、【模型象限】及【各专项榜单】等,总体表现和各任务分数将同步更新在www.superclueai.com官方排行榜网站。
(二)SuperCLUE交流群

(三)联系人

用户意见征集:

诚邀您推荐希望我们评测的大语言模型,您的建议可通过下方评论区留言我们将认真考量每一条意见,并酌情纳入后续评测计划。


另:

请关注CLUE官网:

www.superclueai.com
或微信公众号随时了解SuperCLUE最新动态。

点击阅读原文可查看往期榜单

发起 / SuperCLUE团队