Seedream 3.0:字节跳动推出的高性能中英双语图像生成模型

AI快讯 2025-04-25 15:16更新网络

Seedream 3.0是什么?

Seedream 3.0 是字节跳动 Seed 团队最新发布的一款原生高分辨率、支持中英双语的图像生成基础模型。它可以生成 2K 分辨率图像,出图只需 3 秒,并且支持小字体、多行文本排版,中英字符可用率均达 94%。Seedream 3.0 已在自已的平台即梦、豆包等开放,适用于海报设计、广告创作、平面设计、影视场景生成等多种场景。

Seedream 3.0:字节跳动推出的高性能中英双语图像生成模型.webp

性能提升

高分辨率生成:Seedream 3.0 可以原生直出 2K 分辨率的图像,无需后期处理,能够满足从手机屏幕到巨幅海报等各种视觉需求。

极速生成:该模型的出图速度极快,仅需约 3 秒就能生成 1K 分辨率的高品质图像,相比业界同类模型的 10 秒以上甚至更长时间,以及之前文生图 SOTA 模型 GPT-4o 的 77 秒平均耗时,优势明显。

文本处理能力

小字体高保真生成:解决了业界在小字体生成方面的难题,能够生成清晰、准确的小字体内容。

多行文本排版:在多行文本排版方面表现出色,提升了文本的布局自然度和语义连贯性。

双语支持:对中英双语都有较强的支持,中文和英文字符的文本可用率均达到 94%,基本解决了文本渲染在图像生成中的掣肘问题。

图像质量与美感

美感与结构优化:生成的图像在美感和结构上进一步提升,指令遵循性增强,出图更具感染力,能够生成高品质的构图和色彩搭配。

逼真人像生成:在人像真实感方面表现突出,可以生成带有皱纹、绒毛和疤痕等真实特征的皮肤质感,逼真度已基本接近专业摄影水平。

技术创新

数据优化:通过图像缺陷感知扩充数据集,采用视觉语义协同采样策略和自研图文检索系统改进数据分布。

预训练与后训练:在预训练阶段,使用跨模态旋转位置编码加强文字渲染能力,借助多分辨率混合训练实现 2K 图像直出,并采用新的损失函数提升训练效果;在后训练 RLHF 阶段,设计多粒度美感描述,拓展奖励模型规模,提升模型性能。

推理加速:采用一致性噪声预测和平稳采样过程,利用重要时间步采样加速模型蒸馏训练,实现 1K 分辨率生图端到端仅需 3 秒。

应用场景

专业海报设计:解决多行文本排版、小字高保真生成难题

影视特效制作:支持角色皮肤细节生成(如皱纹、毛发等)

数字艺术创作:可生成色彩准确、纹理丰富的艺术作品

详细介绍:https://team.doubao.com/zh/tech/seedream3_0

相关文章