Stability AI发布SD3技术报告 披露SD3更多细节
站长之家(ChinaZ.com)3月5日 消息:稳定AI(Stability AI)最近发布了他们最强的图片生成模型稳定扩散3(SD3)的技术报告,披露了SD3的更多细节。据稳定AI所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。
技术报告要点如下:
根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourney v6和Ideogram v1。
报告提出了新的多模态扩散Transformer(Multimodal Diffusion Transformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。
SD38B大小的模型可以在GTX409024G显存上运行。此外,SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M到8B。
SD3架构以扩散Transformer(简称"DiT",参见Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,他们为这两种模态使用了独立的权重集。通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。
SD3采用了矫正流(Rectified Flow,简称RF)的公式,在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。
他们还进行了扩展矫正流Transformer模型的研究,使用重新加权的RF公式和MMDiT主干网络,训练了一系列模型,其规模从15个Transformer块(4.5亿参数)到38个块(80亿参数)不等。
SD3还引入了灵活的文本编码器,通过在推理阶段移除内存密集型的T5文本编码器(参数量高达47亿),SD3的内存占用可以大幅降低,而性能损失却很小。
总的来说,稳定AI的这一技术报告揭示了SD3的强大功能和细节,显示出其在图片生成领域的领先地位。
详细内容点此查看:https://stability.ai/news/stable-diffusion-3-research-paper