選單

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

機器之心專欄

作者:鄒徵夏、石天陽、

袁燚

一種新的神經風格畫筆能夠生成向量形式的繪畫作品,在統一框架下支援油畫、馬克筆、水彩畫等多種筆觸,並可進一步風格化。

在 CVPR 2021 的一篇論文中,來自網易伏羲和密歇根大學的研究者提出了一種影象到繪畫的轉換方法,可以生成生動逼真且風格可控的畫作。目前該方法的實現程式碼已開源。

論文地址:https://arxiv。org/abs/2011。08114

Github 地址:https://github。com/jiupinjia/stylized-neural-painting

不同於此前風格遷移方法在逐畫素預測框架下生成繪畫,該方法在向量空間下生成具有物理意義的序列畫筆引數,且該引數可以進一步用於渲染。由於畫筆本身是不可微的,該研究設計了一種新的神經渲染器,以模擬畫筆的行為,並將畫筆預測問題轉化成引數空間內的搜尋問題,從而最大化渲染輸出和輸入影象之間的相似度。該研究揭示了搜尋過程中的零梯度問題並提出從最優搬運的角度解決這一問題。

此外,該研究還揭示了此前神經渲染器存在引數耦合的問題,並重新設計了渲染網路。新的網路包含一個柵格化網路和一個著色網路,能夠更好地對形狀和顏色解耦合。實驗表明該研究提出的方法在全域性和區域性紋理層面上具有更高的真實度。另外,該方法還可以在神經風格遷移框架下聯合最佳化以進一步遷移其他畫作的視覺效果。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 1:該研究提出了一種基於畫筆渲染的方法,可以生成逼真的繪畫作品。圖中畫作是在向量格式下生成的,還可以進一步最佳化渲染成不同的風格。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

生成一幅向日葵畫作。

從影象到繪畫的具體轉換過程如下影片所示:

該研究的主要貢獻包括:

提出一種全新的基於畫筆的影象到繪畫轉換方法,將畫筆預測問題轉化為引數搜尋問題來求解。該方法還可以進一步在神經風格遷移框架下聯合最佳化以實現風格化效果。

揭示了引數搜尋中存在的零梯度問題,並從最優搬運視角來看待畫筆最佳化問題。該研究引入了可微的搬運損失函式改善畫筆收斂性和繪畫效果。

設計了一種新的神經渲染框架,該框架包含雙通道的渲染管線(柵格化 + 著色)。新的渲染器可以更好地處理畫筆形狀和顏色的解耦合,效能優於此前的神經渲染器。

神經風格畫筆

該研究主要由 3 個功能模組組成:1)可以根據輸入畫筆引數生成畫筆影象的神經渲染器;2)可以將多個畫筆組合在一起的可微畫筆混合器;3)用於度量輸入輸出影象相似度的模組。

神經風格畫筆解決了藝術繪畫引數化的問題。對於給定的一張空白畫布 h_0,該方法逐步地將畫筆疊加到該畫布上。例如在第 t 步時,一個訓練好的神經渲染器

G

會將一組畫筆引數

X

_t 渲染成前景影象 s_t 和對應的透明度遮罩,然後該方法利用軟混合(soft blending)的方式將當前畫布、新增畫筆、對應遮罩進行疊加並保證整個過程是可微的:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中。最終該方法將全部

T

步的畫筆引數收集在一起,並在自監督方式下搜尋畫筆引數的最優解,即最終渲染輸出 h_T 需要與輸入影象儘可能相似:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中表示從畫筆引數到渲染畫布的遞迴對映。表示所有

T

步的畫筆引數集合。

假定是用於度量畫 h_T 和輸入影象相似度的損失函式,該方法直接在引數空間內最佳化所有的輸入畫筆並最小化相似度損失函式,並利用梯度下降來更新畫筆引數:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中是預定義的學習率。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 2:該研究從一張空白畫布開始,逐個對畫筆進行渲染,並利用軟混合的方式將畫筆疊加起來。該方法利用梯度下降法來尋找最優的畫筆引數集合,從而使生成的畫作與輸入影象儘可能相似。圖中黑色箭頭表示前向傳播,紅色箭頭表示梯度反向傳播。

神經渲染器

神經風格畫筆中的核心模組是神經渲染器。以往的神經渲染器只能夠在比較簡單渲染場景中工作,但當遇到如過渡色和畫筆紋理等更復雜的渲染場景時,上述渲染器將難以很好地表達耦合在一起的畫筆形狀和顏色。該研究借鑑了傳統的渲染管線並設計了一個雙通道的神經渲染器,該渲染器可以很好地解決顏色 / 形狀 / 材質的耦合問題。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 3:該研究設計了一種雙通道神經渲染器,該渲染器由一個著色網路 G_s 和一個柵格化網路 G_r 組成,它能夠將輸入的畫筆引數集合渲染成柵格化的前景影象和對應的透明度遮罩。

新的神經渲染器由兩個子網路組成:一個著色網路G_s和一個柵格化網路 G_r,輸入的畫筆引數

X

則被分成了三組:顏色、形狀和透明度。著色網路 G_s由一組堆疊的轉置卷積層(transposed convolution layer)構成,用來將輸入的顏色和形狀引數生成具有可靠前景顏色的畫筆。柵格化網路 G_r被設計為位置編碼器 + 畫素解碼器的形式,它忽略了顏色資訊但因此能夠生成具有銳利邊緣的畫筆輪廓。最終,畫筆前景影象 s 可以根據輪廓影象對顏色影象進行掩膜得到,而透明度遮罩則可以利用輸入的透明度對輪廓影象進行縮放得到。

該研究利用標準的逐畫素迴歸損失函式對上述渲染器進行訓練:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中和表示利用圖形引擎渲染出的前景影象和透明度遮罩真值。表示從畫筆引數空間中隨機取樣得到的畫筆引數。

畫素相似度和零梯度問題

神經風格畫筆作畫的關鍵在於相似度的定義,例如逐畫素的和損失函式就可以直接用於定義渲染結果和輸入影象之間的相似度。然而神經風格畫筆並非是僅在畫素空間中進行最佳化,而是需要進一步最佳化畫筆引數,此時逐畫素損失函式並非總是能夠保證梯度的有效下降。特別是當渲染的畫筆和其真值不重疊時,就會造成零梯度問題。該研究進一步引入了最優搬運損失函式來解決該問題,如圖 4 和圖 5 所示。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 4:一個簡單的例項可以解釋為什麼逐畫素損失函式在畫筆引數最佳化時可能存在零梯度問題()。

如圖 4(a)所示,當沿著方向移動一個正方形畫筆

A

到目標

B

時,它的逐畫素梯度始終為一個常數,特別是當

A

B

沒有交集時,就會出現零梯度的情況,如圖 4(b)所示。作為對比,如圖 4(c)所示,該研究提出的最優搬運損失函式不存在上述問題,且可以很好地描述

A

B

之間的物理距離。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 5:逐畫素損失函式(第一行)和最優搬運損失函式(第二行)在將畫筆從其初始值推向目標位置的對比。

利用最優搬運損失函式,畫筆可以很好地收斂到目標位置,而逐畫素損失函式則由於零梯度問題未能收斂。

最優搬運損失函式

該研究定義最小搬運功(即 Wasserstein distance)作為畫布和輸入影象間的相似度度量。對於給定的畫布 h和輸入影象,它們的歸一化畫素值和被定義為機率邊際函式。表示聯合機率矩陣,其中第(i,j)個元素表示 h 中的第 i 個畫素和中的第 j 個畫素的聯合機率,n 表示影象中的畫素數目。

D

表示成本矩陣,其第(i,j)個元素表示 h 中的第 i 個畫素和中的第 j 個畫素之間的歐氏距離。因此矩陣

D

列出了從 h 中的一個位置到中的另一個位置移動單位質量所需要消耗的人力成本。在離散的情況下,經典的最優搬運距離可以寫成一個線性最佳化問題,其中

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

在該研究中,研究者提供了一個經典最優搬運距離的平滑版本,即著名的 Sinkhorn distance。該距離具有良好的數學性質,並且相比於原始的版本能夠大幅度降低計算成本。透過引入拉格朗日乘子和額外的熵約束,上述最佳化問題可以進一步寫為如下形式:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中熵。

基於上述形式,最優搬運損失函式可以輕易地整合進引數搜尋流程並且和其他損失函式聯合最佳化。因此,神經風格畫筆的總相似度損失函式定義如下:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中用於平衡兩個目標函式。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 7:上圖展示了逐畫筆的繪畫結果,其中第一行基於馬克筆生成,第二行基於油畫筆生成。右側影象展示了最佳化過程中的損失函式曲線。

與神經風格遷移聯合最佳化

由於神經風格畫筆是在引數搜尋正規化下實現的,因此該方法天然地適合神經風格遷移框架。由於神經風格遷移被設計為透過更新影象畫素來最小化內容損失函式(content loss)和風格損失函式(style loss),因此研究者進一步將風格損失函式融入神經風格畫筆中,以實現風格化的輸出。擴充套件後的相似度度量函式可以定義為如下形式:

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

其中為相似度損失函式,該研究中採用與 Gatys 等人相同的形式,即計算基於 VGG-19 所提取特徵的 Gram 矩陣。

實驗

風格化繪畫生成實驗

得益於聯合損失函式的設計,神經風格畫筆不僅可以生成逼真的藝術畫作,還可以生成風格化的渲染結果。此外,由於畫筆引數具有明確的物理意義,因此在風格化輸出時還可以進一步控制風格化的範圍(顏色 or 材質)。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 8:(a)—(c) 中展示了神經風格畫筆的繪畫結果。(d)中展示了高度抽象的卡通人物畫像。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 9:基於神經風格畫筆的風格遷移結果。

對比實驗

此前的繪畫引數化方法主要依靠增強學習來實現,如 “Learning-to-Paint” 演算法,而神經風格畫筆透過引入神經渲染器很好地解決了畫筆不可微的問題。因此相比基於 RL 的方法,神經風格畫筆可以生成更加逼真的結果。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 10:神經風格畫筆與 Learning-to-Paint 演算法對比

除了與此前的方法進行對比,研究者還與人工畫作進行了比較,同樣取得了較好的生成效果。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 11:藝術家(Adam Lister)繪畫結果和自動生成的結果

受控實驗

研究者還分別研究了搬運損失函式和雙通道神經渲染器的作用。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 12:使用最優搬運損失函式前後的結果對比。最優搬運損失函式可以有效地恢復影象中的更多細節,特別是當畫筆初始化的位置與目標區域不重合的時候。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 13:不同神經渲染器的驗證集精度(包括 DCGAN-G,UNet,PxlShuffleNet)。該研究提出的雙通道神經渲染器可以有效地提高驗證集精度,並加快收斂速度。

有了這支向量神經風格畫筆,無需GAN也可生成精美繪畫

圖 14:不同神經渲染器渲染的視覺化結果對比

建新·見智 —— 2021亞馬遜雲科技 AI

線上大會

4月22日 14:00 - 18:00

為什麼有那麼多的機器學習負載選擇亞馬遜雲科技?大規模機器學習、企業數字化轉型如何實現?

《建新 · 見智——2021 亞馬遜雲科技 AI 線上大會》由亞馬遜雲科技全球人工智慧技術副總裁及傑出科學家 Alex Smola、亞馬遜雲科技大中華區產品部總經理顧凡領銜,40多位重磅嘉賓將在主題演講及6大分會場上為你深度剖析亞馬遜雲科技創新文化,揭秘 AI/ML 如何幫助企業加速創新。

分會場一:亞馬遜機器學習實踐揭秘

分會場二:人工智慧賦能企業數字化轉型

分會場三:大規模機器學習實現之道

分會場四:AI 服務助力網際網路快速創新

分會場五:開源開放與前沿趨

分會場六:合作共贏的智慧生態

6大分會場,你對哪個主題更感興趣?