選單

憑空想象畫個穿著漢服的蟻人,人工智慧嚇著我了

假如讓人工智慧根據你的描述畫一張畫,你猜它能多“離譜”,比如我寫了一個:穿著漢服的蟻人,也許你想象中的圖是下圖這樣的,可是,你要知道,人工智慧從來不走尋常路,所以你猜AI畫出來的樣子是什麼樣的?

憑空想象畫個穿著漢服的蟻人,人工智慧嚇著我了

關於AI畫畫這種人工智慧應用,現在誕生的專案不是一種兩種了;目前網上公開的技術資料和科研成果已有幾款人工智慧生成模型介面開放和測試。而且在技術平臺也有開源的程式碼託管。雖然AI畫畫處理的是數字畫素影象領域,不過實際上,還涉及到自然語言處理等問題。畢竟你讓人工智慧應用畫畫,總要用語言告訴它畫什麼才行,另外從技術上說,NLP也必不可少。所以機智客在此次談及的AI畫畫,往往是從文字描述生成影象的問題。

而說到從文字描述生成影象,可能我們很多人會想到OpenAI的模型DALL·E,它的確強大,讓我們很多人覺得驚豔,不過正如很多技術應用一樣,它並不支援我們的母語漢字中文,也就是說,你想測試使用時,你不能直接使用中文,得用英語或翻譯才行。

而現在,“中文版的Dall·E”來了,這就是清華大學唐傑團隊打造的CogView,一個帶有VQ-VAE分詞器40億引數的Transfomer。瞧,是Transfomer呢。所以,CogView的主幹是一個單向Transformer,共有48層、40個注意力頭、40億引數,隱藏層的大小為2560。不過,清華大學唐傑團隊的CogView在MS

COCO實現了最低的FID,其效能優於以前基於GAN的模型和以及類似的Dall·E。這個“會畫畫的AI”更適合我們國人嚐鮮。

憑空想象畫個穿著漢服的蟻人,人工智慧嚇著我了

畢竟,清華大學唐傑團隊也開放了測試。我們只要輸入簡體中文文字描述,其他的交給就行了。而這個根據文字描述生成圖片的人工智慧怎麼樣呢,機智客抱著好奇的心態去試了試。需要一句文字描述,想了下,輸入:穿著漢服的蟻人。原本以為一提交就出結果,結果天真了。原本以為穿著漢服的蟻人應該是如下圖這樣,當然即便不太想,也應該有那麼一點點意思,結果,還是天真了。

第一個天真,是因為一提交,即反饋結果,排隊列表(當前數量:≥20)。看樣子是測試的人多,我們提交後還需要排隊等待出結果。那就等唄,等的時間做別的事。等再回想起來,重新整理了也沒看到主頁有那個圖。看看頁面中的檢視歷史有別的,之後再重新整理才找到。而第二個天真,則是看到已經被AI把我描述的圖“畫出來”的樣子。讓人倍感詭異,相當驚悚。

憑空想象畫個穿著漢服的蟻人,人工智慧嚇著我了

乍一看,這個挺瘮人。陰森黑暗的室內背景(像是)中,整個格調都是深藍幽暗的神秘樣子。偏偏前景C位是一個長得像是女人的白衣人。明暗對比,慘白夾雜著淺黃的服飾,配著淺黃到白的長髮,空洞到黑的雙眼,身軀直挺挺站立著,直溜得彷彿人在懸空而立。這是人?哇,這是什麼鬼?說好了的蟻人呢,說好了的漢服呢?這是在逗我還是在嚇我?

不過呢,機智客第一眼看到後,心裡的確小小一驚,然後就啞然失笑了。沒錯,是AI味兒。的確,我們要畫某個畫,往往都是以先有經驗為模板,而人工智慧往往沒有這個“偏見”。當然這只是其一,更重要的是,機智客覺得,現在的人工智慧,當然還沒發展到設計繪畫出來的東西有絕對意義,還沒發展到替代我們人類設計師、工程師和創作者的階段。我們還沒矽基的人類,在機器和數字化的世界裡,可以繼續生存。