
会写字、懂排版、能分镜:HiDream-O1-Image-1.5 全能图像生成能力解析
Quick Answer
This paper shows that HiDream.ai's HiDream-O1-Image-1.5 model achieves SOTA performance, ranking first in China's Text to Image Leaderboard, surpassing major competitors like OpenAI and Google.
Quick Take
HiDream.ai's HiDream-O1-Image-1.5 model achieves SOTA performance, ranking first in China's Text to Image Leaderboard, surpassing major competitors like OpenAI and Google. This model showcases enhanced capabilities in image quality, semantic adherence, and complex scene generation, marking a significant advancement in commercial applications across various industries.
Key Points
- HiDream-O1-Image-1.5 ranks first in China's Text to Image Leaderboard with 1265 ELO.
- The model excels in generating high-quality images with complex layouts and multi-subject consistency.
- It supports various commercial applications including advertising, brand design, and game content.
- The Unified Transformer architecture enhances its performance in multi-modal tasks.
- HiDream-O1-Image-1.5 demonstrates strong capabilities in text rendering and narrative generation.
Article Content
From source RSS / original summary近日,智象未来(HiDream. ai) 全新推出的商用版图像生成模型 HiDream-O1-Image-1. 5 再次实现 SOTA,在全球知名独立 AI 模型评测与分析平台 Artificial Analysis的文生图榜单(Text to Image Leaderboard)上,一举登上中国图像生成模型第一,成为评分仅次于OpenAI的中国大模型公司,超越Google Nano Banana 2(Gemini 3. 1 Flash Image Preview)、NVIDIA Cosmos3-Super-Text2Image 和字节跳动的Seedream 4. 0等国内外大厂的主流图像生成模型。 半个月前,智象未来 HiDream-O1 系列的开源模型 HiDream-O1-Image-Dev-2604 刚刚登顶文生图榜单开源模型全球第一。 数周之后,HiDream-O1-Image-1. 5再次进入全球文生图大模型榜单前三,连续登顶不仅印证了智象未来在图像生成大模型上的硬核实力,更标志着其已在视觉生成大模型的角逐中稳居全球第一梯队阵营。
Artificial Analysis 的 Text to Image Leaderboard 采用匿名对比、用户投票和ELO动态排名机制,尽量减少品牌认知对评测结果的影响,更接近真实用户在开放生成场景中的偏好判断,在这一专业评测体系下,HiDream-O1-Image-1. 5在超过4000 个样本对比中取得1265 ELO。 HiDream-O1-Image-1. 5 的表现不仅体现了模型在图像质量上的竞争力,也反映出其在语义遵循、复杂画面生成、文字渲染和多主体控制等综合能力上的提升。 HiDream-O1-Image-1. 5 的再度 SOTA, 不只是中国领先大模型公司的又一次全球榜单领先,它更标志着智象未来在业内率先把创新的原生全模态架构Unified Transformer (UiT)从“技术验证”推进到“生产验证”,是 HiDream将底层架构优势转化为视觉生产力工具的关键一步:开源版本证明了像素级原生全模态架构可以在开放评测和开发者社区中跑通,HiDream-O1-Image-1.
5 商用版本则进一步面向广告营销、品牌设计、电商视觉、游戏内容、影视分镜、IP 创作等更高要求的商业场景,全面展示了强化的图像质量、文字渲染、复杂排版、多主体一致性和视觉叙事能力。 接下来,真正值得关注的,是它在真实内容生产任务中的表现。 01 会写字、懂排版、能分镜,HiDream-O1-Image-1. 5 展现全能图像生成能力1. 人像摄影生图实例:摄影级画质与多风格表达在人像生图场景中,HiDream-O1-Image-1. 5 展现出稳定的摄影级画质和多风格适配能力。 从魔幻光影、双人互动到人物特写,模型在皮肤质感、服饰纹理、肢体关系和环境虚化等细节上表现自然;即使面对广角、低机位、室内暖光等复杂构图,也能保持人物比例、空间透视与画面叙事的协调。 体现出面向商业人像、品牌视觉和影视分镜等高要求场景的强交付能力。 2. 动物生图实例:运动形态与自然环境的精细建模在动物生图场景中,HiDream-O1-Image-1.
5 展现出对主体形态、运动状态与自然环境的精细建模能力,在动物结构、皮毛质感、动态表现及复杂光照、水下折射等高难度画面中保持真实感与视觉冲击力,体现出面向自然影像、品牌视觉、游戏资产和创意内容生产等场景的生产级交付能力。 3. 自然风光生图实例:空间与光影变化的精细捕捉在自然生图场景中,HiDream-O1-Image-1. 5 展现出对大场景空间层次、光影变化与环境氛围的精准控制能力,在雪山湖泊、沙漠驼队、晶体洞穴等复杂地貌与多光源场景中保持纵深感、电影感和细节表现,体现出面向旅游视觉、影视概念图、游戏场景和品牌传播等复杂商用场景的稳定交付能力。 4. 多种艺术风格:精确的风格理解与视觉表达在多风格艺术生成场景中,HiDream-O1-Image-1. 5 展现出优秀的风格理解、语义遵循与视觉表达能力,可在日系插画、动漫战斗、卡通海报和国风武侠等风格间准确切换,并保持角色造型、构图关系、动作节奏与画面氛围统一,同时在复杂姿态、动态特效和基础文字渲染上具备较强稳定性。 可为 IP 创作、漫画分镜、游戏美术、品牌创意视觉提供高效的生产支持。 5.
电商海报生图实例:复杂画面与文字信息无缝融合在电商海报生成场景中,HiDream-O1-Image-1. 5 展现出对商品主体、版式结构与文字信息的综合把控能力,可针对不同品类快速匹配视觉风格,并自然融合商品、场景、装饰元素与营销文案;在中英文混排、多层级卖点和复杂排版任务中,仍能保持较高的文字可读性、画面完整度与商业质感,显著提升广告营销、电商上新、社媒种草和品牌物料制作效率。 6. IP形象设计:多视角生成与角色一致性在 IP 形象设计场景中,HiDream-O1-Image-1. 5 展现出对角色设定、表情变化与多视角一致性的稳定控制能力,可围绕同一角色生成多角度视图和多种情绪表情,并保持五官、发型、服饰与整体风格统一,呈现丰富的性格与表现力,可显著提升 IP 设定、角色三视图、动画前期、美术资产和品牌吉祥物开发的效率。 7. 多宫格/分镜设计图:稳定叙事理解与连续画面生成在多宫格与分镜设计场景中,HiDream-O1-Image-1.
5 展现出对连续叙事、画面顺序与信息层级的理解能力,可在工具流程、任务推进、儿童绘本和冒险故事等多画面内容中生成逻辑连贯的分镜画面,并保持角色、场景与视觉风格统一;同时对宫格布局、编号、标题和关键文字具备较强组织能力,可为影视分镜、漫画创作、广告脚本、教育内容和短视频脚本视觉化提供高效支持。 8. 多层次复杂文字渲染能力:多语言,多结构的综合生成能力在多层次复杂文字渲染任务中,HiDream-O1-Image-1. 5 展现出对多语言文本、信息结构与视觉场景的综合生成能力,可将海报、计划书、结构拆解图、课堂白板、直播界面和数据看板等内容自然嵌入对应场景,并兼顾排版秩序、图文关系与整体美感;面对中英文混排、数字公式、图表信息和多级标题等复杂需求,仍能保持较好的可读性与版面稳定性,拓展了其在广告设计、办公协作、电商详情页和教育培训等场景的实用价值。 02 原生全模态进入生产验证阶段,HiDream-O1-Image-1. 5持续放大UiT 架构优势HiDream-O1-Image-1. 5 的表现,进一步证明了智象未来在原生全模态路线上的架构创新优势和快速迭代能力,HiDream-O1 系列(8B 开源版、Pro 版到 1.
5 商用版)已经形成清晰而高效的能力演进曲线。 传统文生图模型通常采用“文本编码器 + VAE + DiT / 扩散模型”的模块化路径,其形态更像一棵不断分叉生长的树:文本有自己的 tokenizer,图像和视频有各自的 encoder / decoder,音频、动作、空间关系也往往沿着不同路径被处理,模块之间需要多次转换信息。 在文字密集排版、UI 页面、多主体生成、多参考图控制、多分镜叙事等复杂任务中,也更容易带来细节损耗、语义错位和结构不稳定。 HiDream-O1 原生全模态架构走的是另一条路线:真正的“原生全模态”,不是各个模态长大之后二次拼接,而是从原生初始阶段就像“青梅竹马”一般在模型底层水乳相融。 HiDream-O1 的 Image系列模型剔除了传统路径中的 VAE 和独立文本编码器,将图像像素、文本 Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享 Token 空间,直接与同一套 UiT——像素级统一的 Unified Transformer 交互,在统一表征系统中完成理解、生成和推理。
以下为X平台Artificial Analysis 官方账号发布的一组对比效果图: 这也是 HiDream-O1 能够在复杂图文融合、文字渲染、多主体一致性和分镜叙事等任务中持续进阶的关键。 当所有模态在底层被真正打通,模型才有可能走向真正的“Any to Any”:任意输入支持任意输出。 这不仅是图像生成模型的能力升级,也是世界模型所需要的基础能力——在统一架构中理解、生成并预测现实世界的不同状态。 HiDream-O1-Image-1. 5 的快速进阶,正是对原生全模态这一路线可扩展性的坚实验证。 03 持续架构创新,构建原生全模态世界模型智象未来始终认为,图像是通向视频生成和全模态世界建模的重要入口。 一张图像承载着现实世界某一时刻的主体、空间、材质、光影、文字和关系;只有稳定理解并生成这些状态,模型才有可能进一步处理连续时间中的运动、因果、镜头和叙事。 HiDream-O1-Image-1. 5强势表现说明,基于像素级原生统一架构的路线,正在把图像生成模型的竞争从“更大参数”和“更好看画面”,推进到由架构能力、生产效率和工作流价值共同决定高度的新阶段。
它不仅提升了单图生成效果,也为多图一致性、分镜生成、视频首帧、图像编辑乃至未来长视频生成提供了更稳定的底层能力,进一步证明了中国大模型企业参与全球顶级打模型竞争的实力,也验证了 UiT 原生统一架构作为下一代多模态模型坚实底座的可行性。 面向未来,智象将继续沿着原生全模态技术路线推进模型迭代,加速图像、视频、动作等多模态能力的融合,推动生成式人工智能技术深入落地到内容创作、商业营销、影视创作、游戏生产等全模态智能体的真实应用场景。 从单张图像生成的入口到连续世界建模,智象未来正在以持续的底层架构创新,构建下一代内容生产与智能交互的人工智能基础设施。 欢迎通过以下链接体验HiDream-O1-Image-1. 5 :https://vivago. ai/https://hiharness. ai/开源模型HiDream-O1-Image下载地址:GitHub:https://github. com/HiDream-ai/HiDream-O1-ImageHuggingface:https://huggingface.
co/HiDream-ai/HiDream-O1-Image和Nano Banana 2对比Prompt:一张高端中国白酒的奢华电商海报。 正中央矗立着一个纯净、半透明的羊脂玉瓷瓶。 在瓶身的曲面上直接浮雕着一首八句中文古诗:“昔人已乘黄鹤去,此地空余黄鹤楼。 黄鹤一去不复返,白云千载空悠悠。 晴川历历汉阳树,芳草萋萋鹦鹉洲。 日暮乡关何处是? 烟波江上使人愁。 ”雕刻的文字内部镶嵌着精致、闪烁的金箔,正捕捉着光线。 酒瓶放置在一块粗糙的黑板岩上,半浸在清澈见底的浅水池中,水面荡漾着柔和的同心涟漪。 美丽的液体焦散光影和反光在瓶底跳跃。 在深度虚化的背景中,有微型盆景松树和薄雾。 戏剧性的边缘轮廓光,商业产品摄影。 Prompt: An adorable, candid photograph of a curious kitten exploring a lush, green garden, with oversized flowers and foliage creating a whimsical, fairy-tale atmosphere.
Prompt: 在一个灯光昏暗、烟雾弥漫的审讯室里,一张气氛紧张的过肩镜头(OTS)电影剧照。 在极度靠前的前景中,占据画面左侧三分之一的是侦探肩膀和侧脸的严重失焦剪影。 相机的焦点完全锁定在背景中坐在金属桌对面的嫌疑人身上。 嫌疑人是一个疲惫的赛博格,拥有发光的红色光学植入物,被头顶摇晃的刺眼聚光灯照亮。 极浅的景深在模糊的前景审讯者和细节锐利、满头大汗的嫌疑人面部之间形成了强烈的光学分离。 85mm镜头,f/1. 4大光圈。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.
More from 雷峰网 AI
See more →
从诺奖项目到生成式药物设计,Latent Labs 创始人 Simon Kohl:AI 正在让生物学进入「可编程时代」 | CVPR 2026
Simon Kohl, CEO of Latent Labs, presented at CVPR 2026, highlighting how generative AI, including models like Latent-X1 and Latent-Y, is revolutionizing drug design by drastically reducing development times and costs, achieving up to 90% success rates compared to traditional methods. The transition from AlphaFold 2's structural predictions to autonomous design agents marks a pivotal shift towards programmable biology.

