智象未来图像模型登顶Artificial Analysis评测榜开源模型全球第一｜AlphaCommunity

近日，全球领先的大模型技术创新公司智象未来宣布，此前以“Peanut”匿名上榜全球知名独立AI模型评测与分析平台Artificial Analysis、并成为文生图榜单（Text to Image Leaderboard ）开源模型全球第一的HiDream-O1-Image正式完成开源。阿尔法公社是智象未来的首轮投资人，并持续支持公司发展。

在这次Blind Arena评测中，HiDream-O1-Image在隐藏模型身份的情况下进入Text to Image Arena总榜前列，并成为新的领先开源权重文生图模型，表现超过Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流开源模型。开源当日，HiDream-O1-Image即在Hugging Face模型趋势榜跻身前三，并呈不断上升趋势。

Artificial Analysis Text to Image Leaderboard的价值在于，它更接近真实用户在开放场景中的偏好判断。榜单通过匿名对比、用户投票和ELO动态排名，尽量减少品牌认知对结果的影响，而不是只看固定题库中的单项分数。在这一体系下，HiDream-O1-Image以8B参数规模，在超过3000个样本对比中取得1187ELO，登顶开源模型第一。

同时，在GenEval、DPG、HPSv3、LongText-Bench、GEdit、UniSubject等多项公开评测中，HiDream-O1-Image也保持第一梯队表现：不仅在同量级模型中领先，也在部分关键指标上超过Qwen-Image（27B）、FLUX.2 [dev]等更大参数模型。这进一步说明，HiDream-O1-Image的竞争力并不只来自参数规模，更来自底层架构带来的效率提升。

底层架构创新，重构图像生成范式

自2025年第三季度以来，开源图像生成赛道头部格局基本稳定，FLUX.2 [dev]、Qwen-Image Max与Z-Image分别代表了大参数能力、开源标杆与轻量高效三个方向。此后数月，开源社区持续迭代，但真正意义上的全新架构挑战者寥寥无几。

HiDream-O1-Image正是在这一背景下出现。作为一款8B参数规模即进入第一梯队、并在多项关键评测中实现跨级领先的原生统一图像生成模型，其性能表现主要来自两项关键创新：

1.摒弃VAE与独立文本编码器，率先跑通像素级统一Transformer（UiT）架构

当前主流顶配模型（如 FLUX、SD3）普遍采用“模块化”生成路径：由独立的文本编码器（CLIP/T5）处理语言，再由VAE将图像压缩至潜空间（Latent Space）进行生成。这种机制不可避免地会带来高频细节的丢失与图文语义的错位。

HiDream-O1-Image首次在开源领域跑通了端到端的原生统一架构。它完全舍弃了VAE与独立文本编码器，将原始图像像素、文本Token及控制条件直接映射至同一个“共享Token空间”。这一设计从根本上消除了模态间的转换损耗，将复杂的视觉生成与编辑任务，统一转化为一致的上下文视觉推理过程。

智象未来联合创始人兼CTO姚霆博士表示：“图像是世界建模的重要空间基础，承载了现实世界在某一时刻的完整状态信息。因此，图像能力并不是独立于视频之外的单点能力，而是视频生成乃至更广义全模态世界建模的重要入口。在UiT原生统一架构下，图像与视频训练可以实现更高程度的协同，为模型进一步走向统一的多模态基础能力提供支撑。基于这一判断，智象未来将继续推进底层架构创新，并探索图像与视频能力的持续融合。”

HiDream-O1-Image在Artificial Analysis榜单中位列图像开源模型第一，显示出原生统一Transformer（UiT）架构在生成质量、复杂任务统一建模和规模扩展上具备比DiT更高的天花板。基于UiT架构，智象未来超千亿参数的图像模型也即将面世，无限时长视频生成应用也即将上线，为通向原生全模态世界模型能力持续夯实基础。

2.引入“先推理、后生成”的O1机制：内置推理驱动提示词智能体

为解决传统生图模型高度依赖用户“提示词工程（Prompt Engineering）”的痛点，HiDream-O1-Image首次在图像生成底座中系统性引入了基于Gemma 4的“推理智能体”。

在正式生成图像前，该智能体会自发启动“思维链（CoT）推理”：深度解析用户指令中的空间布局、物理世界逻辑与主体属性，将模糊的初始意图重写为结构化、高精确度的控制指令。这使得模型不仅具备极强的指令遵循能力，更拥有了理解复杂物理逻辑的“慢思考”能力，大幅降低了专业级图像的生成门槛。

面向真实生产场景的关键能力突破

得益于底层架构创新，以及在图像生成流程中引入推理驱动机制，HiDream-O1-Image在多项关键benchmark上表现出稳定的第一梯队竞争力，并在多项真实应用能力上展现出明显优势。

不只出图好，字多版面复杂也能轻松驾驭（Text Rendering）

在CVTG-2K和LongText-Bench等评测中，HiDream-O1-Image展现出较强的长文本生成能力，尤其在中文场景下表现突出。由于不依赖传统VAE压缩路径，模型在文本细节保留和字符结构还原上具备天然优势，能够更稳定地处理长文本、复杂排版与中英文混排任务。以中文长文本测试为例，HiDream-O1-Image得分0.978，高于GPT Image 2的0.961。

这一能力的价值充分体现在真实应用场景中。以直播带货画面为例，商品名称、价格、促销标签、按钮文案和互动弹幕往往需要在同一画面中同时出现，并保持清晰、稳定和易读；

在杂志封面、广告海报等内容场景中，大标题、副标题、刊期、价格等文字元素不仅要准确呈现，还要与人物主体和整体版式自然融合；

在游戏界面和运营活动页中，角色名称、概率说明、导航菜单、按钮标签和奖励信息通常密集排布，对文字准确性、排版稳定性和界面完整性都有更高要求。

长文本渲染能力决定的不只是“能否把文字生成出来”，而是模型能否真正承担图文一体化内容生产任务。HiDream-O1-Image模型的优异表现，标志着图像生成模型突破“会生成画面但不擅长图文融合”的瓶颈，真正具备进入电商营销、品牌设计、媒体内容和游戏运营等商业生产流程的能力。

直播场景中，多类商品与互动信息可同时清晰呈现

长图场景中，多层级文字与图片主体自然融合

游戏场景中，密集界面信息仍可保持清晰与稳定

“多人物、多元素、多商品”依然稳定生成（Subject-driven Personalization）

在UniSubject等评测中，HiDream-O1-Image展现出极强的多主体保持能力，尤其在4–8个乃至9–11个主体的复杂组合场景中能持续保持稳定表现。对于人物、服饰、饰品、包袋、鞋履、道具等多种参考对象，模型能够更好地保留各自的外观特征和相互关系，减少多主体生成中常见的属性错位、元素丢失和身份混淆问题。

这种能力在真实应用中非常关键。例如在一张时尚女装穿搭图中，人物的帽子、上衣、裤装、包袋、项链、耳饰和鞋履往往都来自不同参考图，模型不仅要把这些元素“放进去”，还要确保它们在风格、材质和组合逻辑上保持一致；在商品组合展示、角色换装、IP形象扩展和个性化创作场景中，用户关注的也不只是“像不像”，而是多个细节能否同时被准确保留。HiDream-O1-Image在这方面的表现，说明它已经具备处理复杂参考资产组合任务的基础能力，能够更好服务于电商运营、时尚穿搭、IP角色设定、广告创意和个性化内容生成等真实场景。

多参考图组合生成，风格、材质和组合逻辑上保持一致

形象扩展上，适配不同材质和风格的图像延展

不止于单图，多分镜图亦能轻松拿捏（Multi-panel & Cinematic Control）

HiDream-O1-Image不仅能够生成高质量单图，也能够在一次推理中生成多宫格连贯故事板，并支持多种镜头语言控制，包括人物远景、中景、近景、动作切换和不同视角变化。这使得模型能够更完整地表达“一个主体在多个镜头里的连续变化”，而不只是生成几张彼此独立的静态画面。

这一能力对视觉内容生产尤为重要。无论是短片创意、广告脚本、漫画分镜，还是视频前期策划，创作者都需要先有一组结构清晰、镜头明确、角色连贯的视觉方案。比如同一个角色从奔跑、停下、操作设备到再次移动，不同画格之间不仅要姿态变化自然，还要保持人物身份、服装结构和场景逻辑一致。HiDream-O1-Image在这类任务中的表现，说明它已经开始从“图片生成工具”向“视觉生成工具”延展，具备进入故事板设计、内容策划、漫画制作和视频首帧生成等影视创作工作流的潜力。

多分镜画面中，角色形象、动作推进和场景逻辑保持连贯

半身像，人物在不同景别中高质量呈现

面部特写，人物在不同景别中高质量呈现

全景，人物在不同景别中高质量呈现

在此之前，智象未来的模型能力已多次在国际主流评测体系中获得验证：

2025年4月，公司开源图像生成模型HiDream-I1于上线24小时内登顶Artificial Analysis榜单，成为首个在该榜单取得领先位置的中国自研生成式视觉模型。

图像编辑模型HiDream-E1.1也进入Artificial Analysis图像编辑智能体第一梯队，并在多项指标上超过Flux.1 Kontext等主流模型。

相关开源模型在全球社区下载量已超过200万次，被视为中国开源图像模型进入全球第一梯队的重要标志。

这一系列成果，进一步验证了智象未来在底层模型架构上的持续创新能力。随着图像及视频等能力持续开源，智象未来正将领先的原生全模态架构能力转化为更开放的基础设施，推动生成式视觉技术更快进入实际应用场景。

欢迎体验HiDream-O1-Image：

GitHub-HiDream-O1-Image

https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface-HiDream-O1-Image

https://huggingface.co/HiDream-ai/HiDream-O1-Image

本文内容来自智象未来官方公众号。

✦

菜单

分享

智象未来图像模型登顶Artificial Analysis评测榜开源模型全球第一｜AlphaCommunity

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业