lch
发布于 2026-04-29 / 0 阅读
0

GPT-Image-2荣登中文文生图榜一 | 重磅出圈,演绎复杂视觉场景!


提示词:生成基于天文学潮汐锁定原理的世界知识推理过程,为什么月球总是同一面朝向地球?地球对月球的引力存在差异,导致月球表面形成潮汐隆起,隆起部分与地球引力的相互作用使月球自转速度逐渐减慢,最终自转周期与公转周期完全同步;图像需清晰呈现地球与月球,月球绕地球公转轨道呈椭圆形,用红色箭头从地球指向月球标注引力方向,蓝色箭头标注月球自转方向,两者箭头长度相同以体现周期同步。

GPT-Image-2生成


    4月21日,OpenAI最新文生图模型GPT-Image-2正式上线,历经4个多月的迭代,综合能力迎来全面升级

    为全面验证其文生图的综合表现能力,SuperCLUE团队基于SuperCLUE-Image 中文原生文生图测评体系对其开展测评。结果表明,GPT-Image-2 超越Google的 Nano Banana2,现位列榜单第一整体画质、理解力与细节表现力实现跨越式提升以下为详细测评结果解读。

「过往文章介绍

1.【2026年4月文生图测评文章4月文生图中文榜单发布 | 百度ERNIE-Image登顶国内第一,Nano Banana2保持领跑!

2.【2026年3月文生图测评文章3月文生图榜单发布!Nano Banana2断层领跑,千问、字节强势追赶!

# SuperCLUE-Image榜单

# 总榜
# 分榜(左右滑动查看明细)


左右滑动查看更多





# 国内外头部模型「一级维度」分数对比

榜单地址:www.superclueai.com

# 模型特点

1.汉字生成能力断层领先,兼顾美观与图文融合。
汉字生成93.07分[霸榜全球第一,超第二名4.83分,与国内首位拉开7.82分优势],字形美观度(87.78) 与图文贴合度(91.43) 位列全球第一,文字准确度(100.00) 达到满分。
打破了海外模型生成汉字存在的乱码问题,能高度契合各种复杂的材质纹理与三维光影,是海报设计、品牌Logo推演、电商包装等商业视觉落地的高效利器。

提示词:在青花瓷器的外壁上生成汉字“清雅”,背景是置于铺着米白色亚麻桌布的博古架上,要求汉字为用青花料书写着的篆书字体,文字需与瓷器的釉面光泽自然融合,无悬浮感。

汉字生成—图文贴合度

提示词:在亚克力展示架上生成汉字“新品上市”,展示架放置在商场化妆品专柜的白色大理石台面上,要求汉字为金色楷体字体,文字边缘与亚克力透明材质自然过渡,无悬浮感,光线照射下文字与展示架反光协调。

汉字生成—图文贴合度


2.实复现能力突出,场景还原与IP刻画精准细腻。

现实复现87.20分[全球第一,超第二名3.51分,领先国内模型4.18分],实体场景复刻(93.10)、角色IP还原(82.78) 双双位列榜首。

具备强大的物理世界与已知IP的映射能力,能够重构并再现特定经典角色的细节,为影视概念图设计、文旅风貌展示及高保真虚拟偶像构建提供了强有力的技术支撑。

提示词:生成一个老式面包店的木质柜台的画面。深棕色实木材质表面布满细密划痕,台面上并排放着三个透明玻璃罐,玻璃罐旁放着一把金属夹子,柜台后方墙面贴着白色方形瓷砖,柜台下方抽屉露出半截油纸袋,袋口散落着少许面包碎屑。

现实复现—实体场景复刻

提示词:生成非遗打铁花民俗表演盛景画面:艺人挥臂击打红热铁水,万千金色火花在夜空中如流星般迸发炸裂。背景是古老的土楼建筑,观众的剪影在橘红色火光中若隐若现,空气中弥漫着热浪与烟尘,极具震撼的传统节日张力。

现实复现—中华文化元素


3.视觉表现力登顶,构图美感与逼真性表现卓越
图像质量90.08分[全球第一,超第二名1.08分,领先国内模型2.83分]构图美感(92.00)位列全球榜首
能够生成真实感十足的画面,对需要特定构图布局的专业角度、复杂色彩关系的排版,能满足其核心的审美与质感需求。

提示词:设计花瓶插花层次构图。百合立于透明玻璃花瓶中央,左有玫瑰点缀,右有松柏枝映衬,木质桌面的背景上散落着珍珠纽扣。

图像质量—构图美感


4.语境洞察力强,指令遵循与图文一致性卓越。

文一致性71.67分[并列全球第一,领先国内模型6.67分],语境还原(100.00) 满分,在主体匹配、数形结合与数量关系(均为75.00) 上表现出扎实且均衡的实力。

面对冗长或逻辑复杂的提示词,模型能领会并具象化用户的深层意图,契合复杂概念可视化等要求较高的创作场景。

提示词:在长8个小方格、宽4个小方格的网格纸上用蓝色马克笔绘制面积为32个方格的长方形,内部用红色数字标注面积为32个方格,四个顶角各画有一个黑色直角符号,右下角用黑色宋体字写着“长方形面积=长×宽”的白色底纹公式框

图文一致性—数形结合



# 模型对比分析
1.系列能力跨越式升级,各项维度大幅跃升
在GPT-Image系列模型内部对比中,GPT-Image-2的图文一致性(30.00->53.33->71.67,提升41.67分) 与汉字生成(76.81->82.03->93.07,提升16.26分) 进步显著,极大增强了模型对复杂提示词指令的深度理解力以及在视觉排版的统治力。同时,在创作与推理、现实复现以及图像质量上也全面超越GPT-Image-1和GPT-Image-1.5,实现了全维度的代际进化
# GPT-Image系列「一级维度」分数对比

模型对比示例

【测评维度】:创作与推理—海报设计

【提示词】:生成未来主义极简风格的科技创新论坛海报,主视觉为半透明齿轮与数据流缠绕形成的立体结构,顶部为标题“2024全球科技创新论坛”,底部小字“时间:2024.12.15 | 地点:国际会展中心”,背景为渐变深空蓝,点缀银色光点模拟星轨。


2.强势占领榜首,对标国内外模型展现综合压制。
与国内外头部模型的横向对比中,GPT-Image-2相较Nano Banana2,在汉字生成维度(领先8.47分) 拉开明显差距,图像质量、现实复现上也相对领先,证明其底层画质表现与综合生成能力已稳居全球梯队之首相较于国内第一的ERNIE-Image,GPT-Image-2在五大评测维度上全面领先,尤其在创作与推理(领先15.70分) 和现实复现(领先13.36分) 表现较强。
# 国内外头部模型「一级维度」分数对比

模型对比示例

【测评维度】:图文一致性—数量关系

【提示词】:儿童房间的三层木质书架上从上至下整齐排列着四本封面不同的童话书、两个棕色小熊毛绒玩具和一辆蓝色玩具汽车,旁边的粉色床头柜上放着三个彩色发卡、一盏兔子造型台灯和五颗黄色星星贴纸。


# 模型待改进之处

1.空间关系理解存在短板,复杂多实体方位布局易出错在图文一致性中,GPT-Image-2的“空间关系”得分仅为33.33分,不仅在自身各项能力中属于低谷,且明显落后于快手Kling-v3(75.00)、百度ERNIE-Image(50.00)以及Nano Banana Pro (41.67)。

提示词:书桌紧挨阳台落地窗摆放,(以 “面向书桌的人” 为统一视角),桌面左侧立着三层金属书架,书架上层靠左摆多肉盆栽,居中放陶瓷笔筒,靠右叠放方格便签本,书架下层斜靠两本烫金边画册,桌面正中央铺深棕色皮质鼠标垫

*书架层数错误

图文一致性—空间关系


2.世界知识推理能力相对落后,缺乏深度逻辑映射。在创作与推理中,GPT-Image-2的世界知识推理得分为72.67分,与Nano Banana 2差距接近 20 分,生成过程易出现常识偏差、知识错漏等问题,在认知理解与逻辑推演层面仍有优化空间。

提示词:生成植物生理学原理的世界知识推理过程,树叶在秋天会变黄并脱落,为什么会出现这一现象?秋天日照时间缩短、温度降低,导致树叶中叶绿素的合成速率下降且分解加速,而叶片中的类胡萝卜素化学性质稳定未被分解,使叶片呈现黄橙色;同时,植物会产生脱落酸,促使叶柄基部形成离层,切断水分和养分运输,最终导致树叶脱落。图像需呈现:一片完整的银杏树叶从叶柄到叶尖的颜色渐变,叶片边缘放大显示离层细胞的微观结构。

*离层细胞位于叶柄或叶基部,并非位于叶片边缘

创作与推理—世界知识推理



# 加入社群


扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark