正文

颠覆想象的AI绘画：Dall-E 2使用指南

金色-元宇宙之心2023-01-04 10:02:10

围绕OpenAI推出的第二代DALL-E 2系统的讨论一直处于两极分化的状态，甚至在其推出了几个月后依旧如此。

有用户认为这是一项可以重新定义艺术的突破性创新，而批评者则将其视为人工智能图像生成器给创意产业带来厄运的开始。

然而毫无疑问的是，DALL-E 2为我们创造和消费艺术开辟了新的可能性和挑战 。本文详细介绍了AI图像生成器DALL-E 2的用法和缺点。

什么是DALL-E 2？

DALL-E 2是一款人工智能图像生成器，它可以根据自然语言的文本描述创建图像和艺术形式。 换句话说，它是一个根据文本生成图像的人工智能系统 。

2021年1月，OpenAI推出了DALL-E模型，DALL-E 2是其升级版。“DALL-E”这个名字源于西班牙著名艺术家Salvador Dalí和广受欢迎的皮克斯动画机器人“Wall-E”的组合。

2022年7月，DALL-E 2进入测试阶段，可供白名单中的用户使用。同年9月28日，OpenAI取消了白名单的要求，推出了任何人都可以访问并且使用的开放测试版。

get?code=ZDY3MTkxMzk2MGM2YWE0NmNiZWEyOTUyMTk1MDExM2UsMTY3MjgyNTYxOTc1Mw==

与最初的DALL-E一样，DALL-E 2也是一种语言生成模型，它使用文本提示来创建原始图像。

尽管和之前DALL-E具有的120亿个参数的模型不同，DALL-E仅仅具有大约35亿个参数，但DALL-E 2生成的图像分辨率是DALL-E的四倍，这是一次令人印象深刻的升级。同时，DALL-E 2在真实感和字幕匹配方面似乎也做得更好。

如何使用DALL-E 2？

听起来，DALL-E 2很有未来感，可能会让新用户望而生畏，但它使用起来非常简单。我们不进行详细介绍，仅通过迷你教程为大家提供快速概览。

首先，登陆DALL-E 2的官网并创建一个帐户，如果您此前已经拥有OpenAI的帐户，登陆即可。需要注意的是，系统会要求您提供电子邮件和电话号码以进行验证。

一旦帐户准备就绪，我们就可以开始生成图像。 用户最多提供400个字符的描述性文本，AI艺术生成器将对其进行处理 。根据测试，我们可以从文本提示中得到许多原创且有趣的结果。

比如，我们输入“狼群在满月时嚎叫”就收到了如下的结果。

get?code=Zjc5MjhlMmNmODQwODViZmQ4ZGZhZjEyYTc2YjE2NDksMTY3MjgyNTYxOTc1Mw==

输入“一个3D渲染的罗马士兵正在休息”则获得了以下的图像。

get?code=ODQzNDQ5NzM2MTQ5MzJhZmQ5ZWY3NmUyMzk1MTJlMGQsMTY3MjgyNTYxOTc1Mw==

DALL-E 2的工作原理是什么？

DALL-E 2为AI图像生成器的质量提供了新的基准 。它与之前的同类产品相比，能够更好地理解文本描述。

其卓越的自然语言理解能力可以更严格地控制图像的风格、主题、角度、背景、位置和概念，并获得更高质量的图像和令人印象深刻的艺术形式。

那么让我们来看看DALL-E 2的工作原理。

要了解AI图像生成器的工作原理，我们首先需要了解CLIP、先验模型和解码器扩散模型（unCLIP）。

什么是CLIP？CLIP指的是对比语言图像预训练，是DALL-E 2架构中最关键的模块。

该训练基于用户可以用自然语言教计算机不同图像之间如何相互关联，并由文本和图像编码器这两个神经网络组成。

文本和图像编码器都接受了大量不同的图像文本对集合的训练 。该模型分析这些图像-标题对以创建称为文本/图像嵌入的矢量表示。换句话说，CLIP充当文本（输入）和图像（输出）之间的桥梁。

先验模型采用标题/CLIP文本嵌入，并以此为基础生成CLIP图像嵌入。

unCLIP则是使用CLIP图像嵌入生成图的原始CLIP模型的逆模型。DALL-E 2通过先验模型和unCLIP模型来创建输出。

下图大致概述了其基本过程。

get?code=MmM0NDY4YmVlYmYxNDkzNTA3NjFmMmI0ODkxNGZlZWIsMTY3MjgyNTYxOTc1Mw==

如图所示，unCLIP模型创建了图像的“心理”表示。基于此，创建了原始图像。

这些“心理再现”保留了语义一致的核心特征和特点，例如“动物、物体、颜色、风格和背景等关键要素”。 然而，因为扩散学习是变化的，每一次输出的图像也会有所不同 。

请注意，上文只是DALL-E 2工作原理的简要表述，实现的技术细节和数学更加复杂，我们就不在这里赘述。如果您对DALL-E 2的技术规格感兴趣，可以参看OpenAI在今年早些时候发表的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。