生成藝術是一種藝術,在大多數情況下是視覺藝術,它基於人類與自主系統之間的合作。 “自治系統”被定義爲能夠在不需要程序員干預的情況下執行復雜操作的人工智能軟件、算法或模型。
從Dall-E Mini創造的奇異圖像並置到NFT市場,AI 算法生成的圖像越來越多地進入主流想象。事實上,關於該主題的兩個重要項目值得分析: Midjourney和DALL-E 2 。
當然,這條消息也傳到了推特上。查爾斯·霍斯金森 (Charles Hoskinson) 等對此發表評論,他寫道:
人工智能生成藝術。我能夠在短短几分鐘內完成這張照片。我無法想象這項技術在 3 年後會有多出色pic.twitter.com/jOToCZj7ki
- Charles Hoskinson (@IOHK_Charles) 2023 年 2 月 1 日
瞭解什麼是生成藝術後,重要的是要強調其基本原則之一:隨機性。這是生成藝術的基本屬性。
事實上,根據軟件的類型,自治系統能夠處理每次執行生成命令時始終不同且唯一的結果,或者它可以返回可變數量的結果以響應用戶輸入。
生成藝術的第一個實驗可以追溯到 1960 年代哈羅德·科恩 ( Harold Cohen)和他的AARON程序的實驗。科恩首先使用獨立軟件生成受波普藝術絲網印刷啓發的抽象藝術作品。科恩的作品現在在倫敦泰特美術館展出。
生成藝術的另一個屬性,但越來越少的特權,是由程序員提供並在軟件代碼中實現的模式或抽象元素的重複。
此外,在文本圖像關聯上運行的日益複雜的神經網絡的發展使得生成模型的開發能夠創建越來越逼真和準確的圖像。這類生成藝術最著名的例子是Dall-E 。
Dall-E 是一個基於OpenAI的GPT-3深度學習模型的多模式神經網絡,這家公司最近還開發了ChatGPT ,該聊天機器人於 2022 年 11 月推出,並通過“監督”和強化學習技術進行了優化。
回到 Dall-E,我們看到該系統能夠根據文本-圖像對的數據集,從稱爲“提示”的文本描述中生成圖像。
Dall-E 的第一個版本於 2021 年 1 月向公衆展示,並且仍然是該領域少數專業人士的特權,代表了此類生成模型的真正革命,超越了 GPT- 3 本身。
同樣重要的是,Dall-E 處理的結果的準確性被證明是另一個 OpenAI 解決方案的完美範圍: CLIP (對比語言-圖像預訓練)。
基於文本圖像關聯訓練的圖像分類和排序神經網絡,例如在 Internet 上找到的字幕。由於 CLIP 的干預,將每次提示向用戶建議的結果數量減少到 32 個,Dall-E 被發現在大多數情況下返回令人滿意的圖像。
正如預期的那樣, Midjourney是一個重要的項目,它是新興的 Al Generative Art 概念的一部分。具體來說,Midjourney 是一個獨立的研究實驗室,旨在探索新的思維方式並擴展人類的想象力。
使用它很簡單:首先必須在Discord上創建一個帳戶,Discord 是一個託管各種社區的平臺,Midjourney 就是其中之一。在應用程序中有各種聊天室,人們可以在其中積極參與或不參與討論。
重要的是要指出,第一次嘗試使用人工智能必須去“新手”頻道,那裏有25 個免費渲染可用。
一個渲染對應於從同一文本輸入生成的四種不同變體的生成。
因此,25 個渲染指的是 Midjourney 機器人執行的 25 個處理作業。因此,生成圖像需要通過稱爲“提示”的文本消息與 Midjourney 機器人進行交互,其中將包含描述用戶腦海中圖像的關鍵字。
您可以根據需要添加任意數量的詳細信息,重要的是用逗號分隔關鍵字。渲染完成後,計算機會根據描述返回四張不同的圖像以供選擇。
此外,程序完成渲染後,您可以根據圖像傳達您的偏好,如果您願意,還可以再生成四個版本。
除了 Midjourney 之外,DALL-E 2 也是新的 AI 系統,可以從自然語言描述中創建逼真的圖像和藝術品。不僅如此,DALL-E 2還可以結合概念、屬性和風格。
新人工智能系統的優勢還在於能夠將圖像擴展到原始畫布之外,創造出新的廣闊構圖。此外,它可以根據自然語言字幕對現有圖像進行逼真的更改,並可以添加和刪除考慮到陰影、反射和紋理的元素。
DALL-E 2 的功能還包括拍攝圖像並根據原始圖像創建多個變體。 DALL-E 2 已經學會了圖像和用於描述它們的文本之間的關係。
它使用一種稱爲“擴散”的過程,該過程從隨機點的圖案開始,並在識別圖像的特定方面時逐漸改變該圖案以適應圖像。
因此,在 OpenAI 於 2021 年 1 月推出 DALL-E 之後,現在最新的系統 DALL-E 2 以四倍的分辨率生成更逼真和準確的圖像。
DALL-E 2 最初是一個研究項目,現在作爲測試版提供。系統已經開發並持續改進的安全緩解措施包括:限制系統生成暴力、仇恨或成人圖像的能力,以及基於學習的分階段部署。