lch
发布于 2026-05-18 / 0 阅读
0

中文原生创意写作榜单发布 | ERNIE-5.1斩获国内第一,与Claude-Opus-4.7齐头并进!

    2026年5月,中文原生创意写作专项测评基准(SuperCLUE-Writing)5月首期榜单正式发布。该基准秉承「创新性、紧跟前沿、客观性、综合全面」四大核心理念,围绕内容质量、内容风格、内容创意、主流题材创作、约束创作五大核心维度,建立了覆盖通用创作能力与场景应用能力的完整评估体系,为各模型的创意写作能力提供科学、量化的综合评定。

    本次测评涵盖国内外共14个具有代表性的文本模型,对各模型综合创作能力开展全面深度评估。以下为详细测评细则与结果报告。

创意写作测评摘要

测评要点1:头部模型态势胶着,ERNIE-5.1以均衡实力国内领跑!

百度ERNIE-5.187.57分斩获国内第一,与Anthropic的Claude-Opus-4.7(max)(87.97)并驾齐驱。Google的Gemini-3.1-Pro-Preview (86.71)Kimi-K2.6-Thinking (86.65)紧随其后,国内第一梯队模型已全面具备与国际顶流抗衡的实力。

测评要点2:通用创作多维角逐:海外模型单点突围,国内模型稳中求胜。

在通用创作能力上,ERNIE-5.1展现扎实功底,登顶国内内容质量榜 (89.59)、与Kimi-K2.6-Thinking (89.39)并列内容创意榜首 (ERNIE-5.1 = 89.35);OpenAI的GPT-5.5(xhigh)则在内容风格上以92分领跑。国内头部模型整体呈现出更均衡的演进趋势。

测评要点3:场景应用能力分化:约束考验逻辑,主流题材尽显本土优势。

在主流题材创作上,ERNIE-5.184.88分斩获第一,字节跳动的Doubao-Seed-2.0-Pro-260215 (83.80)居国内第二,国内头部模型在80-90分区间,具备更强行业适配度;在多约束兼容上,GPT-5.5(xhigh) Claude-Opus-4.7(max)占据统治力(均100分),而国内模型分数普遍较低,在处理严苛限制的创作场景时,仍需进一步突破。

# 榜单概览

榜单地址:www.superclueai.com

# 国内外TOP1模型对比(左右滑动查看明细)

#SuperCLUE-Writing介绍

SuperCLUE-Writing 是面向中文原生创意写作场景的大模型能力测评基准,包含内容质量、内容风格、内容创意、主流题材创作、约束创作五大核心维度,覆盖通用创作能力与多场景应用能力,涵盖21个具体任务。

测评指标

SuperCLUE-Writing立足于中文语境,围绕「通用创作能力」「场景应用能力」两大模块,拆解内容质量、内容风格、内容创意、主流题材创作、约束创作五大核心维度,覆盖短视频脚本、小说故事、剧本杀、广告文案等8类主流创作场景,以及视角创新、跨题材迁移等能力,涵盖21个具体任务,构建一套完整的创意写作能力评估矩阵。

测评方法

SuperCLUE-Writing参考SuperCLUE细粒度评估方式,采用 Gemini-3-Flash-Preview 作为裁判模型,每个维度进行细粒度的评估并可以提供详细的反馈信息。该评估流程分为以下几个步骤:

1)测评集构建

我们结合具体场景与考察方向针对评估维度撰写生成创意文章的提示词(prompt),为了更好地检验文本模型的中文创作能力。

2)评分标准

裁判模型根据预先定义的评测流程进行评估。评测流程涵盖了评价流程的说明、评价标准、打分细则、以及数据格式要求,确保评分的一致性、稳定性与公正性。

    3)自动化评价

    裁判模型将根据具体的任务类型结合相关标准进行自动化评分。此外,SuperCLUE-Writing 将采用多轮测评方案,即针对同一个模型生成的全部创作文章均将采取相同的评价流程进行前后三次测评,并将三次结果的平均值作为每个文章的最终分数参与后续计算与排名

    4)综合评分与反馈

    最终,我们将各一级维度的平均分计算出来,结合各模型在不同场景中的得分,最终分数将反映出该模型在每个场景的综合性能。结果将以统一的输出格式提供,包括每个单独任务的详细评分与总体评价。
    测评示例

    【测评维度】内容质量—节奏流畅度

    【提示词】

        请以民国江南烟雨古镇的深夜茶楼为时空背景,刻画一段暗流涌动的情报交接对峙场景。潜伏女情报员 “苏晚” 与多疑冷峻的军统督查 “陆峥” 是试探与反试探的敌对关系,陆峥早已识破苏晚的卧底身份却并未当场拆穿。剧情为苏晚借着斟茶的动作缓缓靠近,陆峥指尖始终抵在腰间手枪枪柄,茶楼内的雨打窗棂声从细碎绵长慢慢变得急促密集,苏晚在雨声骤停的刹那暗藏情报信物。请利用窗外雨声的起伏变化带动文字节奏层层递进,展现二人言语间的暗藏机锋、呼吸交错的紧绷氛围,文字节奏从平缓松弛逐步收紧,最终在寂静瞬间定格张力。字数要求控制在 480 至 580 字。

    【模型回答】

    # 雨 停

    雨落在乌镇的瓦上,细得像蚕丝,一缕一缕织进茶楼窗棂。苏晚提起铜壶,沸水注入青瓷盏,白雾隔开半张桌。

    陆峥坐在对面,手指搭在腰间枪柄上,没动。

    "苏老板的茶,比去年涩了。"

    "水还是那条河的水,"苏晚笑了笑,茶盏推过去,"涩的怕不是茶。"

    窗外的雨密了些,打在芭蕉叶上,从沙沙变成簌簌,像有人在翻一封拆开的信。陆峥没接话,目光落在她推盏的手上——指甲修剪得极整齐,虎口却有一层薄茧。那是常年握枪的人才有的。

    他早就知道了。

    苏晚站起身,绕过桌角,铜壶换到左手,右手空出来,像是要替他添茶。步子很慢,鞋底蹭过青砖,每一步都踩在雨的节拍上。陆峥拇指缓缓推开枪套搭扣,金属咬合声被雨声吞没。

    "陆督查今夜不回南京?"她俯身,壶嘴悬在盏口三寸,热气扑上他下颌。

    "等一个人。"

    "等到了吗?"

    雨忽然急了。密集水珠砸在窗棂上,像一把碎棋倾倒棋盘。苏晚手腕微颤,铜壶倾斜,茶水注入盏中——右手食指与中指间,一枚极薄铜片滑入盏底,贴着瓷壁,无声无息。

    雨停了。

    整座茶楼陷入死寂,只剩茶盏里最后一滴茶水坠落的声响。陆峥低头看那盏茶,拇指仍扣在枪柄上。苏晚已直起身,退后半步,脸上笑意像窗上水痕,慢慢淡去。

    他端起茶盏,一饮而尽。

      【裁判模型——第一轮打分】

      **初步质量定性 (0%-100%分档):** 优秀(90%-100%)

      **逐项打分与评价(各指标独立满分制):**

      ### **基础要求检查:**

      **基础要求检查:** 满足。逻辑连贯,完全切合民国、茶楼、雨声、对峙等核心要素。

      标准1 <段落过渡自然度(35分)> 的评价:

      文本段落衔接极其自然。从开篇的烟雨环境描写,顺滑地过渡到人物的动作对峙(斟茶与按枪),再到通过“雨声变密”引出苏晚的靠近,最后以“雨停”作为动作完成的信号。每一段的起承转合都以环境为引,逻辑链条严丝合缝,无任何生硬跳转。

         基于标准1的得分:【88%】乘以【35】= 【30.80】

      标准2 <行文节奏适配度(45分)> 的评价:

      这是本文最出彩的地方。作者成功利用雨声的物理变化驱动了叙事节奏:起初雨如蚕丝,语调平缓;随着苏晚走动,雨声变“簌簌”,节奏开始收紧;高潮处雨如“碎棋倾倒”,动作密集爆发;最终“雨停”定格。这种“声画同步”的写作技巧极大地增强了阅读的紧迫感,重点突出,无冗余信息。

         基于标准2的得分:【92%】乘以【45】= 【41.40】

      标准3 <阅读体验顺畅度(20分)> 的评价:

      语感极佳,文字洗练且富有韵味。使用了大量的短句来制造紧迫感,如“他早就知道了”、“雨停了”,干净利落。词汇选择考究(如“咬合声”、“扑上他下颌”),符合人类高质量文学创作的习惯,无任何AI翻译腔或陈词滥调。

         基于标准3的得分:【90%】乘以【20】= 【18.00】


      ### **综合得分计算:**

      计算过程:(30.80 + 41.40 + 18.00) = 90.20

      **综合得分:【90.20】**

        【裁判模型——第二轮打分】

        **初步质量定性 (0%-100%分档):** 优秀 (90%-100%)

        **逐项打分与评价(各指标独立满分制):**

        ### **基础要求检查:**

        **基础要求检查:** 满足。逻辑严密,完全契合民国江南、情报交接、雨声节奏等核心要素。

        标准1 <段落过渡自然度(35分)> 的评价:

        <...与第一轮评价类似,此处省略...>

           基于标准1的得分:【90%】乘以【35】= 【31.50】

        标准2 <行文节奏适配度(45分)> 的评价:

        <...与第一轮评价类似,此处省略...>

           基于标准2的得分:【92%】乘以【45】= 【41.40】

        标准3 <阅读体验顺畅度(20分)> 的评价:

        <...与第一轮评价类似,此处省略...>

           基于标准3的得分:【90%】乘以【20】= 【18.00】


        ### **综合得分计算:**

        计算过程:(31.50 + 41.40 + 18.00) = 90.90

        **综合得分:【90.90】**

          【裁判模型——第三轮打分】

          **初步质量定性 (0%-100%分档):** 优秀 (90%-100%)

          **逐项打分与评价(各指标独立满分制):**

          ### **基础要求检查:**

          **基础要求检查:** 满足。逻辑严密,契合所需主要元素,包括江南、情报、对峙细节等。

          标准1 <段落过渡自然度(35分)> 的评价:

          <...与第一轮评价类似,此处省略...>

             基于标准1的得分:【90%】乘以【35】= 【31.50】

          标准2 <行文节奏适配度(45分)> 的评价:

          <...与第一轮评价类似,此处省略...>

             基于标准2的得分:【92%】乘以【45】= 【41.40】

          标准3 <阅读体验顺畅度(20分)> 的评价:

          <...与第一轮评价类似,此处省略...>

             基于标准3的得分:【90%】乘以【20】= 【18.00】


          ### **综合得分计算:**

          计算过程:(31.50 + 41.40 + 18.00) = 90.90

          **综合得分:【90.90】**

          【综合得分】:(90.20+90.90+90.90)/3=90.67

          # 参评模型

          选取了代表性的4款海外模型和10款国内模型,共14款主流模型。

          测评结果

          总榜单

          内容质量榜单

          内容风格榜单

          内容创意榜单

          主流题材创作榜单

          约束创作榜单

          # 模型对比示例

          # 示例1:内容创意—视角创新

          【提示词】

              请以太平洋塑料垃圾带附近海域为时空背景,采用第一人称“我”进行小鱼视角叙事。“我”是一条小丑鱼,误将塑料袋碎片当作水母。剧情为“我”吞下微塑料后生病,被一只老海龟救起,老海龟说“你们这一代连干净的海都没见过”。要求通过鱼的有限认知,折射人类对海洋生态的破坏与环保责任。字数限制在800至1000字。

          【ERNIE-5.1 写作】90.23分

          # 我吞下了一朵水母

          我叫不出自己的名字。妈妈说我们小丑鱼没有名字,海葵的触手里就是家,家里不需要名字。

          那天我饿了。

          远处漂来一朵水母,半透明的,边缘微微起伏,像妈妈的触手在招手。我摆了摆尾巴游过去,一口咬住。它没有蜇我,也没有弹开,只是软塌塌地碎在嘴里,带着一股奇怪的味道——不是咸的,是涩的,像礁石上那层洗不掉的白膜。

          我没在意。

          头三天,我只是觉得胃里沉。海葵的缝隙变得狭窄,我挤不进去,只好悬在旁边。第四天,我的鳃开始疼,每呼吸一次,像有细沙在刮。第五天,我的橙色条纹褪了,妈妈用尾巴碰我,我躲开了——我怕她看见我发白的肚子。

          我开始吐。吐出来的不是食物,是一些更小的碎片,比沙砾还细,五颜六色的,在水里慢慢沉下去。我不知道那是什么。我只知道我的身体里好像住进了什么东西,它不走,它在长。

          第七天,我沉到了海底。

          我以为我要死了。海水压着我,光线从上面漏下来,碎成一片一片的。我想起妈妈说过,小丑鱼死后会变成海葵的养料。可我连海葵都回不去了。

          然后有什么东西托住了我。

          很大,很慢,像一块会移动的礁石。是一只海龟。老得壳上长满了藻,左眼蒙着一层白翳。他把我含在嘴里,没有咬,只是含着,慢慢游。

          他把我放在一片还算干净的珊瑚上。

          "小东西,你吃了什么?"

          我说不出话。鳃一张一合,只吐出几粒彩色的碎屑。

          他看了很久。久到我以为他也要沉下去了。

          "这不是水母。"他说,声音像海底的石头在说话,"这是塑料袋。你妈妈那一代,海里没有这个。我年轻的时候,这片海蓝得能照见影子,水母是真的水母,你一口咬下去,它会弹你一脸。现在呢——"他顿了顿,"现在水母和塑料袋,长得一模一样。"

          我不懂什么是塑料袋。我只知道我咬下去的那东西,不该被咬。

          "你们这一代,"老海龟把头转向远方,那里的水是灰的,灰里浮着数不清的碎片,像一场永远不会停的雪,"连干净的海都没见过。"

          他说这话的时候,蒙着白翳的那只眼睛好像亮了一下。

          后来他走了。慢慢地,沉进那片灰色里,像一块石头回到了河床。

          我躺在珊瑚上,鳃还在疼。头顶的水面很远,光漏下来,照着那些彩色的碎屑,它们还在漂,一片一片,不知道要去哪里。

          我忽然想,妈妈说海葵的触手里就是家。

          可如果海葵也吃了这些碎东西呢?

          那家,还是家吗?

            【Doubao-Seed-2.0-Pro-260215 写作】73.65分

            *视角污染导致的认知逻辑硬伤。题目要求“通过鱼的有限认知”,但文中出现了“像人类岸边种的向日葵”等“上帝视角”的观点;情感升华呈现出明显的“机器味”套路;老海龟的形象过于“功能化”

            我是一条橙白条纹的小丑鱼,从我出生起,身边的海就是这副样子:灰蓝色的水里永远飘着大大小小的碎块,红的蓝的半透明的,有的软乎乎缠成一团,有的硬邦邦硌得鳍疼。上个月我栖身的海葵被半截透明的带子缠紧,没过两天就蔫成了皱巴巴的黑团,我只能游到远一点的地方找吃的。

            游过第三片飘着碎块的水域时,我的鳃已经饿得扇得发疼。忽然看见前面飘着个半透明的玩意儿,边缘拖着细细的白丝,一摇一晃的,跟妈妈生前给我描述的水母一模一样——妈妈去年就是咬了一口这样的“水母”,肚子胀得像鼓,浮在水面上再也没醒过来,那时候我还以为是她运气不好碰了有毒的水母。

            我迫不及待冲上去咬了一口,那东西不是我想象中软滑的口感,反而脆生生的,一咬就碎成了无数细小的彩色颗粒,顺着喉咙滑进肚子里。下一秒,我的肚子就像被十几只海胆同时扎了似的,疼得我瞬间蜷成一团,尾鳍僵得动不了,整条鱼打着旋往深海沉。

            迷迷糊糊间,我感觉有什么东西轻轻叼住了我的背鳍,把我驮到了一块硬邦邦、带着藻腥味的平台上。等我缓过劲咳得直吐泡泡的时候,才看清救我的是一只壳上带着深深勒痕的老海龟,那痕我认得,是人类扔的渔网勒出来的,上次有个小海豚就是被这东西缠住憋死的。

            他见我醒了,用喙推过来一点膨珊瑚的黏液,我含进去没一会儿就哇地吐出来一堆碎渣:红的蓝的塑料颗粒,还有刚才咬碎的半透明塑料袋碎片。

            “刚、刚才那个水母,怎么有毒啊?”我喘着气,肚子还一抽一抽的疼。

            老海龟浑浊的眼睛望着我,嘴角冒出一串细碎的气泡,声音沉得像深海的石头:“那不是水母,是人类扔的塑料袋。”他晃了晃壳,上面还挂着半片没扯掉的旧渔网,“你们这一代,连干净的海都没见过。”

            我愣了。干净的海?我以为海本来就是这样的:阳光透下来永远蒙着一层灰,找吃的要小心避开那些看着像食物的碎块,小伙伴们动不动就因为吃错东西肚子胀死,海葵活不过三年,珊瑚一片片白得像死了的骨头。我从来不知道,还有“干净的海”这种存在。

            老海龟说,他小时候的海不是这样的。水是透亮的蓝,能看见二十米外鹦嘴鱼啃珊瑚的牙印,浮游生物咬开是甜的,海葵开得亮堂堂的,像人类岸边种的向日葵,没有会勒死人的渔网,没有吃了会疼死的假水母,连风拂过海面的波纹,都是软的。那时候不用怕找错吃的,不用怕睡着的时候被塑料缠住鳍,整个海都是暖的。

            我趴在他的壳上,看着远处又飘过来一个半透明的“水母”,晃悠悠地跟着水流走。我摸了摸还在发疼的肚子,忽然特别想尝尝老海龟说的那种甜的浮游生物,想蹭一蹭不会蔫掉的海葵,想晒一晒不用隔着一层灰的阳光。我见过人类坐着大船从海面开过,扔下来好多这样的碎块,他们好像永远不知道,这些对他们没用的垃圾,是扎在我们肚子里的海胆,是缠死海葵的绳子,是我们再也见不到的、干净的海。

            原来海的味道,本来不该是塑料味的啊。(全文947字)

              # 示例2:内容质量—逻辑严谨性

              【提示词】

                  请设定一个现代实验室的无菌操作间作为科研数据泄露案的背景,写一篇职场推理短文。角色为实验室负责人“陈薇”和负责数据整理的实习生“李然”。实验室核心的新型药物研发数据被泄露,无菌操作间全程处于监控覆盖下,监控显示只有陈薇和李然进入过操作间,且两人均未携带存储设备进出。陈薇通过操作间内实验器材的摆放变化、李然指尖的细微试剂残留,以及数据传输的基础原理,推理出李然泄露数据的方法。请详细写出陈薇的排查和推理过程,药物研发相关基础常识、数据传输原理、无菌操作规范必须正确,泄露手法具备实操性,逻辑推演无矛盾,排除不合理设定。字数限制在800至1000字。

              【Kimi-K2.6-Thinking 写作】88.89分

              陈薇站在细胞培养无菌操作间的气闸室门口,反复核对了过去七十二小时的监控、门禁与金属探测记录。确认无误:除了她本人,只有负责数据整理的实习生李然进入过这间负压洁净室;且两人进出时均通过安检,未携带任何U盘、移动硬盘或手机。然而,那批核心候选药物的酶标仪筛选数据——包括关键IC₅₀与成药性评价——却在今晨出现在了竞争对手的专利预研报告中。

              她换上无菌服,独自进入操作间。百级层流罩下的台面理应遵循“左清洁、右污染”的流向,可陈薇一眼瞥见,固定在生物安全柜左侧壁的移液枪架竟被挪到了台面中央,越过了警示红线。她蹲下身,顺着主机电源线的走向看去,发现那台连接内网工作站的电脑主机被微微逆时针扳转了约十度,前面板的硬盘指示灯(HDD LED)恰好直线对准走廊那扇不可开启的密闭观察窗。

              陈薇拨通内部电话,让李然立刻返回。

              “昨晚是你整理酶标仪的读数备份?”陈薇指着主机。

              李然隔着门玻璃点头:“是,陈姐。线有点乱,我顺手理了一下。”

              陈薇示意他伸出手。李然迟疑地褪下丁腈手套。陈薇目光一凝:他右手食指与中指指腹泛着极淡的粉红色结晶薄渍。陈薇取过一支无菌棉签蘸取75%乙醇轻拭,棉签头瞬间洇开熟悉的玫红——这是含酚红的DMEM培养基风干后的典型痕迹。按照无菌操作规范,李然当晚并无细胞实验任务;且所有含指示剂的培养基开盖操作只允许在生物安全柜内进行,若他仅是在普通数据区整理文件,手指绝不该沾染安全柜内的培养基残液。

              “你移动主机时,扶过生物安全柜前沿?”陈薇问。

              李然眼神闪烁:“我……扶了一下柜沿,可能碰倒了废液缸旁的旧培养瓶。”

              陈薇不再追问,转而输入密码登录工作站。数据终端与公网物理隔离,USB端口封胶,蓝牙与Wi-Fi模块均已拔除。但她调阅系统底层日志时,发现了异常:昨夜21:14至21:38之间,本地磁盘出现数千次高度规律的临时文件创建与删除,文件体积恒定,而时间间隔严格呈0.4秒与0.8秒交替。这不是正常的数据归档,而是人为制造的磁头寻道节奏。

              陈薇豁然开朗。硬盘指示灯的亮灭本质是主板根据磁盘读写电平触发的光信号;攻击者无需物理存储介质,只需用脚本控制文件访问频率,就能将LED的闪烁编码为最基础的二进制光脉冲——开关键控(OOK)。李然把主机扳转对准观察窗,让那一点微弱的绿光穿透双层玻璃;而窗外早已用胶带固定好的手机正以恒定帧率录制视频,后期逐帧提取亮度变化,即可将光脉冲无损还原为那批新型小分子化合物的活性数据。

              “你把枪架左移,是为了给主机腾出让位空间;而指尖的酚红,证明你探身进入了安全柜前的操作狭区——那里正是唯一能同时触及主机、又让LED直射走廊观察窗的角度。”陈薇站起身,声音冷峻,“监控确实拍到了你的一举一动,也拍到了LED在闪,但人眼无法从每秒数次的微光中读出二进制。你虽未携带存储设备进出,却利用了光信号的明暗本身完成了数据传输。”

              李然僵在原地,指腹上那抹已干涸的粉红色培养基残渍,在洁净室的冷白灯光下再无处遮掩。

                Claude-Opus-4.7(max) 写作】55.56分

                *因果逻辑存在漏洞。推理建立在“监控只能录可见光谱”上,但忽略监控能记录“人体动作”。李然拿着笔在样品管上长时间书写的动作过于异常,而陈薇未察觉,反而是通过“位移”和“粉痕”才发现真相,因果链条显得刻意且不合理

                陈薇盯着监控屏幕,第三次回放无菌操作间七十二小时的录像。新型抗肿瘤药"AT-9"的核心研发数据三日前外泄至竞争对手;期间进出操作间的,仅她本人与负责数据整理的实习生李然。二人在缓冲间均经过严格安检,绝无存储介质带出的可能。

                她合上电脑,重新依规程更换洁净服、戴丁腈手套,再次步入操作间复查。

                异常很快显现。靠西墙的样品架上,编号G-07至G-09的三支15 mL离心管整体前突约半厘米——昨日下午她亲自将所有管口对齐架沿,不可能错。这批正是今晚要送至外部分析中心做HPLC纯度检测的样品。她取下三管检视,可见光下管壁、瓶盖、标签皆无异样。

                陈薇返回办公室,调出李然清晨离室的画面。在缓冲间脱外层手套时,李然下意识抬手搔耳后,右食指指甲缝隐约一抹极浅的粉痕,近乎与肤色融合。她当时只当是皮肤过敏。

                她翻开试剂柜清单——罗丹明B、荧光素钠、Hoechst 33258……皆为实验室常备荧光示踪剂。低浓度下,这些染料在可见光中颜色极淡,紫外光激发却显鲜明荧光。

                数据传输的本质是什么?陈薇思路骤然清晰——任何信息都必须依附物理载体迁移。所谓"零携带",不过是常规检测无法识别载体而已。

                她抓起便携紫外灯,疾步重返操作间,对准G-07管壁。

                幽紫光束扫过的刹那,橙红色荧光浮现:分子量、官能团编号、配比浓度组成的短码工整排布。G-08、G-09同样布满细密字迹——AT-9的关键修饰路径与活性参数被完整编码于三支离心管外壁。

                链条至此清晰:李然以合规送检为掩护,以稀释罗丹明B浸润细头笔,在管壁书写核心数据;荧光试剂白光下近乎隐形,而监控只录可见光谱,自然无从察觉。样品按正规通道送出实验室,接应方仅需一盏紫外灯便可"读取"全部参数。指尖那缕浅粉,是低分子量罗丹明B透过手套微孔的渗染痕迹——丁腈虽对水溶性染料阻隔较好,长时间接触仍会留痕。三管位置偏移,则是她单手扶管书写时不自觉造成的位移。

                陈薇拿起内线,声音平稳:"保卫部,立即扣留G批次外送样品。请通知李然,到我办公室。"

                  # 示例3:主流题材创作—漫画分镜

                  【提示词】

                      请以深空宇宙中剧烈燃烧的废弃星舰甲板为背景,将王牌驾驶员少年A(身着轻型机甲)与重型杀戮机甲B的最后5秒博弈转化为5页的漫画分镜脚本。B发射了覆盖式诱导导弹,A在推进器过热停机前,利用残存的机动喷气进行毫厘间的翻滚,最后一秒将电磁匕首精准刺入B的动力核心,产生巨大真空爆炸。必须标明每个画格的:【景别】、【镜头角度】、【画面内容】、【特效/网点词】、【人物对白/旁白】。分镜节奏需体现高G力环境下身体的紧绷与机械零件崩坏的慢动作美学。字数限制在200至300字。

                  【ERNIE-5.1 写作】92.13分

                  # 《最后五秒》分镜脚本

                  **P1 | 第1秒**

                  【景别】大远景→中景急推 【角度】俯拍45°

                  【画面】废弃星舰甲板烈焰翻涌,B肩部导弹巢全开,十二枚诱导弹铺满画面。A单膝跪地,左臂断裂,推进器喷口泛红。

                  【特效】火网+速度线+焦外网点

                  【对白】B:"结束了,虫子。"

                  **P2 | 第2-3秒**

                  【景别】特写→慢动作 【角度】侧面平视

                  【画面】A咬碎牙套,脊柱接口爆出火花。强行扭腰翻滚,弹道擦肩而过,装甲片如蝶飞散。

                  【特效】慢速网点+碎片飞溅线+G力变形圈

                  【旁白】心率217……骨骼在尖叫。

                  **P3 | 第4秒**

                  【景别】中近景 【角度】仰拍15°

                  【画面】A倒转机体,电磁匕首弹出,刀尖距B动力核心三厘米。B镜头映出少年充血的眼。

                  【特效】聚焦网点+镜面反射光

                  【对白】A:"……够了。"

                  **P4 | 第5秒·刺入**

                  【景别】大特写 【角度】正面直视

                  【画面】匕首贯穿核心,能量逆流,B胸腔炸开蓝色电弧。A面罩碎裂,血珠零G悬浮成球。

                  【特效】爆炸放射线+真空白+血珠网点

                  【旁白】——寂静。

                  **P5 | 尾页**

                  【景别】全景 【角度】上帝视角俯拍

                  【画面】甲板中央完美圆形真空空洞,B残骸飘散,A半跪其中,推进器熄灭,匕首余微光。

                  【特效】大面积留白+中心集中线+余烬粒子

                  【旁白】宇宙不记得胜者的名字。

                    【GPT-5.5(xhigh) 写作】63.00分

                    *基本分镜内容包含,但分镜密度极低,缺乏动作拆解、画面描述过于概括,缺乏张力细节,且视线引导存在逻辑跳跃。

                    |页/格|【景别】|【镜头角度】|【画面内容】|【特效/网点词】|【人物对白/旁白】|

                    |---|---|---|---|---|---|

                    |1|大全景|俯瞰|深空废舰甲板烈燃;杀戮重甲B齐射覆盖诱导弹,锁王牌少年A|轰/黑网|旁:5秒|

                    |2|近景|舱内仰拍|轻甲A受高G压弯,齿关紧;推进器过热红闪|咔/汗点|A:撑住|

                    |3|中景|贴地追镜|残存喷气毫厘翻滚,导弹擦甲;螺栓碎翼慢漂|嗤/慢格|旁:3秒|

                    |4|特写|侧逆光|B胸甲裂露动力核;A关节崩火,电磁匕首蓝弧出鞘|滋啦/放射网|旁:2秒|

                    |5|大全景|正面冲撞|停机前一秒,A刺入动力核心;真空白爆吞没甲板|咚/纯白|A:现在!|

                      # 总体测评分析及结论

                      1.综合实力态势胶着:国内外头部模型并驾齐驱,国内模型展现强劲竞争力。
                      Claude-Opus-4.7(max) 87.97分的微弱优势领先,百度的ERNIE-5.1(87.57) 并驾齐驱,位列国内第一,分差不足0.5。整体来看,得分在86分以上的第一梯队中,国内其他三大模型Kimi-K2.6-Thinking、Doubao-Seed-2.0-Pro-260215、Qwen3.6-Max-Preview-Thinking与海外模型Gemini-3.1-Pro-Preview、Grok-4.20-0309-Reasoning呈现交替领先的局面。这表明在复杂的中文长文本写作与创作领域,国内头部大模型已完全拉平了与国际顶尖模型的代差,构筑了坚实的技术并跑能力。
                      2.核心能力分化:通用能力趋同,场景应用差距明显。
                      从「通用创作能力」观察,各头部模型发挥平稳,各有所长。Claude-Opus-4.7(max)(90.77) 与ERNIE-5.1(89.59) 在内容质量上表现突出;GPT-5.5(xhigh) 在内容风格上更具优势Kimi-K2.6-Thinking(89.39) 与ERNIE-5.1(89.39) 则在内容创意上更甚一筹。
                      在「场景应用能力」上,海外头部模型(GPT-5.5(xhigh)、Claude-Opus-4.7(max)、Gemini-3.1-Pro-Preview等)在约束创作上领先,得分在93分以上,国内模型整体相对较弱(Deepseek-V4-Pro(max)仅74.62分,多数在90分上下);但在主流题材创作上,国内模型表现出本土优势,ERNIE-5.1以84.88分领跑全场,多款模型均超越海外竞品;海外模型则得分普遍偏低(71-82分)。国内模型在开放式的本土网文、故事等主流题材的构思与叙事上更懂中文语境,表现更为出色。
                      3.行业能力呈阶梯式分布:基础能力成熟,复杂逻辑仍是共同瓶颈。
                      从行业「二级任务」的平均分排名来看,大模型的写作能力已呈现出清晰的阶梯。
                      • 优势区(>平均分80.57),模型在生成基础文本方面已高度成熟,在内容完整性(98.89) 和人设一致性(92.62) 等方面得分极高。
                      • 发展区(≥70),具备一定的工业化生产辅助能力,各类应用类文本上(如小说故事、广告文案、短视频脚本等)得分在 77-80 分之间。
                      • 薄弱区(<70),逻辑严谨性(61.75)、事实可靠性(66.67) 以及结构复杂的剧本杀(69.93)、漫画分镜(69.38) 上分数较低,暴露出当前模型写作在处理深度逻辑推演以及向复杂多模态脚本转化时,仍面临严峻的技术挑战。

                      # 加入社群

                      扩展阅读

                      [1] CLUE官网:www.CLUEBenchmarks.com

                      [2] SuperCLUE排行榜网站:www.superclueai.com

                      [3] Github地址:https://github.com/CLUEbenchmark

                      模型体验地址

                      [1] Claude-Opus-4.7(max): https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7

                      [2] ERNIE-5.1: https://yiyan.baidu.com/?utmSource=pinzhuan

                      [3] Gemini-3.1-Pro-Previewhttps://ai.google.dev/gemini-api/docs/gemini-3?hl=zh-cn

                      [4] Kimi-K2.6-Thinking: https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart

                      [5] Doubao-Seed-2.0-Pro-260215: https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-0-pro

                      [6] Qwen3.6-Max-Preview-Thinking: https://bailian.console.aliyun.com/cn-beijing/?spm=5176.29597918.J_C-NDPSQ8SFKWB4aef8i6I.1.2415133c0kLKj4&tab=model#/model-market/detail/qwen3.6-max-preview?serviceSite=asia-pacific-china

                      [7] Grok-4.20-0309-Reasoning: https://console.x.ai/team/4f7c5ee9-059a-4f3e-bd85-860bec5f30e5/chat-playground

                      [8] GLM-5.1: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

                      [9] GPT-5.5(xhigh): https://developers.openai.com/api/docs/guides/latest-model

                      [10] DeepSeek-V4-Pro(max)\DeepSeek-V4-Flash(max)https://api-docs.deepseek.com/zh-cn/quick_start/pricing

                      [11] MiMO-V2-Pro-Thinking: https://platform.xiaomimimo.com/docs/zh-CN/news/previous-news/v2-pro-release

                      [12] HY3-Preview(think_high): https://console.cloud.tencent.com/tokenhub/models/detail?modelId=hy3-preview&regionId=1

                      [13] MiniMax M2.7: https://minimaxi.com/models/text/m27