lch
发布于 2026-05-16 / 0 阅读
0

智象未来图像模型登顶Artificial Analysis评测榜开源模型全球第一|AlphaCommunity

图片


近日,全球领先的大模型技术创新公司智象未来宣布,此前以“Peanut”匿名上榜全球知名独立AI模型评测与分析平台Artificial Analysis、并成为文生图榜单Text to Image Leaderboard 开源模型全球第一HiDream-O1-Image正式完成开源。阿尔法公社是智象未来的首轮投资人,并持续支持公司发展。


图片


在这次Blind Arena评测中,HiDream-O1-Image在隐藏模型身份的情况下进入Text to Image Arena总榜前列,并成为新的领先开源权重文生图模型,表现超过Z-Image TurboQwen-ImageFLUX.2 [dev] 等主流开源模型。开源当日,HiDream-O1-Image即在Hugging Face模型趋势榜跻身前三,并呈不断上升趋势。


Artificial Analysis Text to Image Leaderboard
的价值在于,它更接近真实用户在开放场景中的偏好判断。榜单通过匿名对比、用户投票和ELO动态排名,尽量减少品牌认知对结果的影响,而不是只看固定题库中的单项分数。在这一体系下,HiDream-O1-Image8B参数规模,在超过3000个样本对比中取得1187ELO,登顶开源模型第一。


同时,在GenEvalDPGHPSv3LongText-BenchGEditUniSubject等多项公开评测中,HiDream-O1-Image也保持第一梯队表现:不仅在同量级模型中领先,也在部分关键指标上超过Qwen-Image27B)、FLUX.2 [dev]等更大参数模型。这进一步说明,HiDream-O1-Image的竞争力并不只来自参数规模,更来自底层架构带来的效率提升。


图片


底层架构创新,重构图像生成范式


2025年第三季度以来,开源图像生成赛道头部格局基本稳定,FLUX.2 [dev]Qwen-Image MaxZ-Image分别代表了大参数能力、开源标杆与轻量高效三个方向。此后数月,开源社区持续迭代,但真正意义上的全新架构挑战者寥寥无几。


HiDream-O1-Image正是在这一背景下出现。作为一款8B参数规模即进入第一梯队、并在多项关键评测中实现跨级领先的原生统一图像生成模型,其性能表现主要来自两项关键创新:


1.摒弃VAE与独立文本编码器,率先跑通像素级统一TransformerUiT)架构


当前主流顶配模型(如 FLUXSD3)普遍采用模块化生成路径:由独立的文本编码器(CLIP/T5)处理语言,再由VAE将图像压缩至潜空间(Latent Space)进行生成。这种机制不可避免地会带来高频细节的丢失与图文语义的错位。


HiDream-O1-Image首次在开源领域跑通了端到端的原生统一架构。它完全舍弃了VAE与独立文本编码器,将原始图像像素、文本Token及控制条件直接映射至同一个共享Token空间这一设计从根本上消除了模态间的转换损耗,将复杂的视觉生成与编辑任务,统一转化为一致的上下文视觉推理过程。


智象未来联合创始人兼CTO姚霆博士表示:图像是世界建模的重要空间基础,承载了现实世界在某一时刻的完整状态信息。因此,图像能力并不是独立于视频之外的单点能力,而是视频生成乃至更广义全模态世界建模的重要入口。在UiT原生统一架构下,图像与视频训练可以实现更高程度的协同,为模型进一步走向统一的多模态基础能力提供支撑。基于这一判断,智象未来将继续推进底层架构创新,并探索图像与视频能力的持续融合。


HiDream-O1-ImageArtificial Analysis榜单中位列图像开源模型第一,显示出原生统一TransformerUiT)架构在生成质量、复杂任务统一建模和规模扩展上具备比DiT更高的天花板。基于UiT架构,智象未来超千亿参数的图像模型也即将面世,无限时长视频生成应用也即将上线,为通向原生全模态世界模型能力持续夯实基础。


图片


2.引入先推理、后生成O1机制:内置推理驱动提示词智能体


为解决传统生图模型高度依赖用户提示词工程(Prompt Engineering的痛点,HiDream-O1-Image首次在图像生成底座中系统性引入了基于Gemma 4推理智能体


在正式生成图像前,该智能体会自发启动思维链(CoT)推理:深度解析用户指令中的空间布局、物理世界逻辑与主体属性,将模糊的初始意图重写为结构化、高精确度的控制指令。这使得模型不仅具备极强的指令遵循能力,更拥有了理解复杂物理逻辑的慢思考能力,大幅降低了专业级图像的生成门槛。


面向真实生产场景的关键能力突破


得益于底层架构创新,以及在图像生成流程中引入推理驱动机制,HiDream-O1-Image在多项关键benchmark上表现出稳定的第一梯队竞争力,并在多项真实应用能力上展现出明显优势。


不只出图好,字多版面复杂也能轻松驾驭(Text Rendering


CVTG-2KLongText-Bench等评测中,HiDream-O1-Image展现出较强的长文本生成能力,尤其在中文场景下表现突出。由于不依赖传统VAE压缩路径,模型在文本细节保留和字符结构还原上具备天然优势,能够更稳定地处理长文本、复杂排版与中英文混排任务。以中文长文本测试为例,HiDream-O1-Image得分0.978,高于GPT Image 20.961


这一能力的价值充分体现在真实应用场景中。以直播带货画面为例,商品名称、价格、促销标签、按钮文案和互动弹幕往往需要在同一画面中同时出现,并保持清晰、稳定和易读;


杂志封面、广告海报等内容场景中,大标题、副标题、刊期、价格等文字元素不仅要准确呈现,还要与人物主体和整体版式自然融合;


游戏界面和运营活动页中,角色名称、概率说明、导航菜单、按钮标签和奖励信息通常密集排布,对文字准确性、排版稳定性和界面完整性都有更高要求。


长文本渲染能力决定的不只是能否把文字生成出来,而是模型能否真正承担图文一体化内容生产任务。HiDream-O1-Image模型的优异表现,标志着图像生成模型突破会生成画面但不擅长图文融合的瓶颈,真正具备进入电商营销、品牌设计、媒体内容和游戏运营等商业生产流程的能力。


图片

直播场景中,多类商品与互动信息可同时清晰呈现


图片

长图场景中,多层级文字与图片主体自然融合


图片

游戏场景中,密集界面信息仍可保持清晰与稳定


多人物、多元素、多商品依然稳定生成(Subject-driven Personalization


UniSubject等评测中,HiDream-O1-Image展现出极强的多主体保持能力,尤其在4–8个乃至9–11个主体的复杂组合场景中能持续保持稳定表现。对于人物、服饰、饰品、包袋、鞋履、道具等多种参考对象,模型能够更好地保留各自的外观特征和相互关系,减少多主体生成中常见的属性错位、元素丢失和身份混淆问题。


这种能力在真实应用中非常关键。例如在一张时尚女装穿搭图中,人物的帽子、上衣、裤装、包袋、项链、耳饰和鞋履往往都来自不同参考图,模型不仅要把这些元素放进去,还要确保它们在风格、材质和组合逻辑上保持一致;在商品组合展示、角色换装、IP形象扩展和个性化创作场景中,用户关注的也不只是像不像,而是多个细节能否同时被准确保留。HiDream-O1-Image在这方面的表现,说明它已经具备处理复杂参考资产组合任务的基础能力,能够更好服务于电商运营、时尚穿搭、IP角色设定、广告创意和个性化内容生成等真实场景。


图片

多参考图组合生成,风格、材质和组合逻辑上保持一致


图片

形象扩展上,适配不同材质和风格的图像延展


不止于单图,多分镜图亦能轻松拿捏(Multi-panel & Cinematic Control


HiDream-O1-Image不仅能够生成高质量单图,也能够在一次推理中生成多宫格连贯故事板,并支持多种镜头语言控制,包括人物远景、中景、近景、动作切换和不同视角变化。这使得模型能够更完整地表达一个主体在多个镜头里的连续变化,而不只是生成几张彼此独立的静态画面。


这一能力对视觉内容生产尤为重要。无论是短片创意、广告脚本、漫画分镜,还是视频前期策划,创作者都需要先有一组结构清晰、镜头明确、角色连贯的视觉方案。比如同一个角色从奔跑、停下、操作设备到再次移动,不同画格之间不仅要姿态变化自然,还要保持人物身份、服装结构和场景逻辑一致。HiDream-O1-Image在这类任务中的表现,说明它已经开始从图片生成工具视觉生成工具延展,具备进入故事板设计、内容策划、漫画制作和视频首帧生成等影视创作工作流的潜力。


图片

多分镜画面中,角色形象、动作推进和场景逻辑保持连贯


图片

半身像,人物在不同景别中高质量呈现


图片

面部特写,人物在不同景别中高质量呈现


图片

全景,人物在不同景别中高质量呈现


在此之前,智象未来的模型能力已多次在国际主流评测体系中获得验证:


  • 20254月,公司开源图像生成模型HiDream-I1于上线24小时内登顶Artificial Analysis榜单,成为首个在该榜单取得领先位置的中国自研生成式视觉模型。


  • 图像编辑模型HiDream-E1.1也进入Artificial Analysis图像编辑智能体第一梯队,并在多项指标上超过Flux.1 Kontext等主流模型。


相关开源模型在全球社区下载量已超过200万次,被视为中国开源图像模型进入全球第一梯队的重要标志。


这一系列成果,进一步验证了智象未来在底层模 型架构上的持续创新能力。随着图像及视频等能力持续开源,智象未来正将领先的原生全模态架构能力转化为更开放的基础设施,推动生成式视觉技术更快进入实际应用场景。


欢迎体验HiDream-O1-Image


GitHub-HiDream-O1-Image

https://github.com/HiDream-ai/HiDream-O1-Image


Huggingface-HiDream-O1-Image

https://huggingface.co/HiDream-ai/HiDream-O1-Image


本文内容来自智象未来官方公众号。


图片

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片


图片
图片