AI训练模型

Imagen

Google AI文字到图像生成模型

标签:

前所未有的照片写实×深层次的语言理解

Imagen,一种文本到图像的扩散模型,具有前所未有的照片真实感和深层次的语言理解。 Imagen 建立在大型 Transformer 语言模型在理解文本方面的能力之上,并依赖于扩散模型在高保真图像生成方面的能力。 我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如 T5)在编码文本以进行图像合成方面出奇地有效:增加 Imagen 中语言模型的大小可以大大提高样本保真度和图像文本对齐 不仅仅是增加图像扩散模型的尺寸。 Imagen 在 COCO 数据集上达到了新的最先进的 FID 分数 7.27,而无需在 COCO 上进行训练,并且人类评估者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。 为了更深入地评估文本到图像模型,我们引入了 DrawBench,这是一个全面且具有挑战性的文本到图像模型基准。 通过 DrawBench,我们将 Imagen 与最新的方法(包括 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2)进行比较,发现在并排比较中,人类评分者更喜欢 Imagen,而不是其他模型,无论是在样本质量方面还是在样本质量方面 和图像文本对齐。

相关导航