Imagen | AIGC导航

前所未有的照片写实×深层次的语言理解

Imagen，一种文本到图像的扩散模型，具有前所未有的照片真实感和深层次的语言理解。 Imagen 建立在大型 Transformer 语言模型在理解文本方面的能力之上，并依赖于扩散模型在高保真图像生成方面的能力。我们的关键发现是，在纯文本语料库上进行预训练的通用大型语言模型（例如 T5）在编码文本以进行图像合成方面出奇地有效：增加 Imagen 中语言模型的大小可以大大提高样本保真度和图像文本对齐不仅仅是增加图像扩散模型的尺寸。 Imagen 在 COCO 数据集上达到了新的最先进的 FID 分数 7.27，而无需在 COCO 上进行训练，并且人类评估者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型，我们引入了 DrawBench，这是一个全面且具有挑战性的文本到图像模型基准。通过 DrawBench，我们将 Imagen 与最新的方法（包括 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2）进行比较，发现在并排比较中，人类评分者更喜欢 Imagen，而不是其他模型，无论是在样本质量方面还是在样本质量方面和图像文本对齐。