生成艺术是一种艺术,在大多数情况下是视觉艺术,它基于人类与自主系统之间的合作。 “自治系统”被定义为能够在不需要程序员干预的情况下执行复杂操作的人工智能软件、算法或模型。
从Dall-E Mini创造的奇异图像并置到NFT市场,AI 算法生成的图像越来越多地进入主流想象。事实上,关于该主题的两个重要项目值得分析: Midjourney和DALL-E 2 。
当然,这条消息也传到了推特上。查尔斯·霍斯金森 (Charles Hoskinson) 等对此发表评论,他写道:
人工智能生成艺术。我能够在短短几分钟内完成这张照片。我无法想象这项技术在 3 年后会有多出色pic.twitter.com/jOToCZj7ki
- Charles Hoskinson (@IOHK_Charles) 2023 年 2 月 1 日
了解什么是生成艺术后,重要的是要强调其基本原则之一:随机性。这是生成艺术的基本属性。
事实上,根据软件的类型,自治系统能够处理每次执行生成命令时始终不同且唯一的结果,或者它可以返回可变数量的结果以响应用户输入。
生成艺术的第一个实验可以追溯到 1960 年代哈罗德·科恩 ( Harold Cohen)和他的AARON程序的实验。科恩首先使用独立软件生成受波普艺术丝网印刷启发的抽象艺术作品。科恩的作品现在在伦敦泰特美术馆展出。
生成艺术的另一个属性,但越来越少的特权,是由程序员提供并在软件代码中实现的模式或抽象元素的重复。
此外,在文本图像关联上运行的日益复杂的神经网络的发展使得生成模型的开发能够创建越来越逼真和准确的图像。这类生成艺术最著名的例子是Dall-E 。
Dall-E 是一个基于OpenAI的GPT-3深度学习模型的多模式神经网络,这家公司最近还开发了ChatGPT ,该聊天机器人于 2022 年 11 月推出,并通过“监督”和强化学习技术进行了优化。
回到 Dall-E,我们看到该系统能够根据文本-图像对的数据集,从称为“提示”的文本描述中生成图像。
Dall-E 的第一个版本于 2021 年 1 月向公众展示,并且仍然是该领域少数专业人士的特权,代表了此类生成模型的真正革命,超越了 GPT- 3 本身。
同样重要的是,Dall-E 处理的结果的准确性被证明是另一个 OpenAI 解决方案的完美范围: CLIP (对比语言-图像预训练)。
基于文本图像关联训练的图像分类和排序神经网络,例如在 Internet 上找到的字幕。由于 CLIP 的干预,将每次提示向用户建议的结果数量减少到 32 个,Dall-E 被发现在大多数情况下返回令人满意的图像。
正如预期的那样, Midjourney是一个重要的项目,它是新兴的 Al Generative Art 概念的一部分。具体来说,Midjourney 是一个独立的研究实验室,旨在探索新的思维方式并扩展人类的想象力。
使用它很简单:首先必须在Discord上创建一个帐户,Discord 是一个托管各种社区的平台,Midjourney 就是其中之一。在应用程序中有各种聊天室,人们可以在其中积极参与或不参与讨论。
重要的是要指出,第一次尝试使用人工智能必须去“新手”频道,那里有25 个免费渲染可用。
一个渲染对应于从同一文本输入生成的四种不同变体的生成。
因此,25 个渲染指的是 Midjourney 机器人执行的 25 个处理作业。因此,生成图像需要通过称为“提示”的文本消息与 Midjourney 机器人进行交互,其中将包含描述用户脑海中图像的关键字。
您可以根据需要添加任意数量的详细信息,重要的是用逗号分隔关键字。渲染完成后,计算机会根据描述返回四张不同的图像以供选择。
此外,程序完成渲染后,您可以根据图像传达您的偏好,如果您愿意,还可以再生成四个版本。
除了 Midjourney 之外,DALL-E 2 也是新的 AI 系统,可以从自然语言描述中创建逼真的图像和艺术品。不仅如此,DALL-E 2还可以结合概念、属性和风格。
新人工智能系统的优势还在于能够将图像扩展到原始画布之外,创造出新的广阔构图。此外,它可以根据自然语言字幕对现有图像进行逼真的更改,并可以添加和删除考虑到阴影、反射和纹理的元素。
DALL-E 2 的功能还包括拍摄图像并根据原始图像创建多个变体。 DALL-E 2 已经学会了图像和用于描述它们的文本之间的关系。
它使用一种称为“扩散”的过程,该过程从随机点的图案开始,并在识别图像的特定方面时逐渐改变该图案以适应图像。
因此,在 OpenAI 于 2021 年 1 月推出 DALL-E 之后,现在最新的系统 DALL-E 2 以四倍的分辨率生成更逼真和准确的图像。
DALL-E 2 最初是一个研究项目,现在作为测试版提供。系统已经开发并持续改进的安全缓解措施包括:限制系统生成暴力、仇恨或成人图像的能力,以及基于学习的分阶段部署。