有了這支向量神經風格畫筆，無需GAN也可生成精美繪畫

機器之心專欄

作者：鄒徵夏、石天陽、

袁燚

一種新的神經風格畫筆能夠生成向量形式的繪畫作品，在統一框架下支援油畫、馬克筆、水彩畫等多種筆觸，並可進一步風格化。

在 CVPR 2021 的一篇論文中，來自網易伏羲和密歇根大學的研究者提出了一種影象到繪畫的轉換方法，可以生成生動逼真且風格可控的畫作。目前該方法的實現程式碼已開源。

論文地址：https：//arxiv。org/abs/2011。08114

Github 地址：https：//github。com/jiupinjia/stylized-neural-painting

不同於此前風格遷移方法在逐畫素預測框架下生成繪畫，該方法在向量空間下生成具有物理意義的序列畫筆引數，且該引數可以進一步用於渲染。由於畫筆本身是不可微的，該研究設計了一種新的神經渲染器，以模擬畫筆的行為，並將畫筆預測問題轉化成引數空間內的搜尋問題，從而最大化渲染輸出和輸入影象之間的相似度。該研究揭示了搜尋過程中的零梯度問題並提出從最優搬運的角度解決這一問題。

此外，該研究還揭示了此前神經渲染器存在引數耦合的問題，並重新設計了渲染網路。新的網路包含一個柵格化網路和一個著色網路，能夠更好地對形狀和顏色解耦合。實驗表明該研究提出的方法在全域性和區域性紋理層面上具有更高的真實度。另外，該方法還可以在神經風格遷移框架下聯合最佳化以進一步遷移其他畫作的視覺效果。

圖 1：該研究提出了一種基於畫筆渲染的方法，可以生成逼真的繪畫作品。圖中畫作是在向量格式下生成的，還可以進一步最佳化渲染成不同的風格。

生成一幅向日葵畫作。

從影象到繪畫的具體轉換過程如下影片所示：

該研究的主要貢獻包括：

提出一種全新的基於畫筆的影象到繪畫轉換方法，將畫筆預測問題轉化為引數搜尋問題來求解。該方法還可以進一步在神經風格遷移框架下聯合最佳化以實現風格化效果。

揭示了引數搜尋中存在的零梯度問題，並從最優搬運視角來看待畫筆最佳化問題。該研究引入了可微的搬運損失函式改善畫筆收斂性和繪畫效果。

設計了一種新的神經渲染框架，該框架包含雙通道的渲染管線（柵格化 + 著色）。新的渲染器可以更好地處理畫筆形狀和顏色的解耦合，效能優於此前的神經渲染器。

神經風格畫筆

該研究主要由 3 個功能模組組成：1）可以根據輸入畫筆引數生成畫筆影象的神經渲染器；2）可以將多個畫筆組合在一起的可微畫筆混合器；3）用於度量輸入輸出影象相似度的模組。

神經風格畫筆解決了藝術繪畫引數化的問題。對於給定的一張空白畫布 h_0，該方法逐步地將畫筆疊加到該畫布上。例如在第 t 步時，一個訓練好的神經渲染器

會將一組畫筆引數

_t 渲染成前景影象 s_t 和對應的透明度遮罩，然後該方法利用軟混合（soft blending）的方式將當前畫布、新增畫筆、對應遮罩進行疊加並保證整個過程是可微的：

其中。最終該方法將全部

步的畫筆引數收集在一起，並在自監督方式下搜尋畫筆引數的最優解，即最終渲染輸出 h_T 需要與輸入影象儘可能相似：

其中表示從畫筆引數到渲染畫布的遞迴對映。表示所有

步的畫筆引數集合。

假定是用於度量畫 h_T 和輸入影象相似度的損失函式，該方法直接在引數空間內最佳化所有的輸入畫筆並最小化相似度損失函式，並利用梯度下降來更新畫筆引數：

其中是預定義的學習率。

圖 2：該研究從一張空白畫布開始，逐個對畫筆進行渲染，並利用軟混合的方式將畫筆疊加起來。該方法利用梯度下降法來尋找最優的畫筆引數集合，從而使生成的畫作與輸入影象儘可能相似。圖中黑色箭頭表示前向傳播，紅色箭頭表示梯度反向傳播。

神經渲染器

神經風格畫筆中的核心模組是神經渲染器。以往的神經渲染器只能夠在比較簡單渲染場景中工作，但當遇到如過渡色和畫筆紋理等更復雜的渲染場景時，上述渲染器將難以很好地表達耦合在一起的畫筆形狀和顏色。該研究借鑑了傳統的渲染管線並設計了一個雙通道的神經渲染器，該渲染器可以很好地解決顏色 / 形狀 / 材質的耦合問題。

圖 3：該研究設計了一種雙通道神經渲染器，該渲染器由一個著色網路 G_s 和一個柵格化網路 G_r 組成，它能夠將輸入的畫筆引數集合渲染成柵格化的前景影象和對應的透明度遮罩。

新的神經渲染器由兩個子網路組成：一個著色網路G_s和一個柵格化網路 G_r，輸入的畫筆引數

則被分成了三組：顏色、形狀和透明度。著色網路 G_s由一組堆疊的轉置卷積層（transposed convolution layer）構成，用來將輸入的顏色和形狀引數生成具有可靠前景顏色的畫筆。柵格化網路 G_r被設計為位置編碼器 + 畫素解碼器的形式，它忽略了顏色資訊但因此能夠生成具有銳利邊緣的畫筆輪廓。最終，畫筆前景影象 s 可以根據輪廓影象對顏色影象進行掩膜得到，而透明度遮罩則可以利用輸入的透明度對輪廓影象進行縮放得到。

該研究利用標準的逐畫素迴歸損失函式對上述渲染器進行訓練：

其中和表示利用圖形引擎渲染出的前景影象和透明度遮罩真值。表示從畫筆引數空間中隨機取樣得到的畫筆引數。

畫素相似度和零梯度問題

神經風格畫筆作畫的關鍵在於相似度的定義，例如逐畫素的和損失函式就可以直接用於定義渲染結果和輸入影象之間的相似度。然而神經風格畫筆並非是僅在畫素空間中進行最佳化，而是需要進一步最佳化畫筆引數，此時逐畫素損失函式並非總是能夠保證梯度的有效下降。特別是當渲染的畫筆和其真值不重疊時，就會造成零梯度問題。該研究進一步引入了最優搬運損失函式來解決該問題，如圖 4 和圖 5 所示。

圖 4：一個簡單的例項可以解釋為什麼逐畫素損失函式在畫筆引數最佳化時可能存在零梯度問題（）。

如圖 4（a）所示，當沿著方向移動一個正方形畫筆

到目標

時，它的逐畫素梯度始終為一個常數，特別是當

和

沒有交集時，就會出現零梯度的情況，如圖 4（b）所示。作為對比，如圖 4（c）所示，該研究提出的最優搬運損失函式不存在上述問題，且可以很好地描述

和

之間的物理距離。

圖 5：逐畫素損失函式（第一行）和最優搬運損失函式（第二行）在將畫筆從其初始值推向目標位置的對比。

利用最優搬運損失函式，畫筆可以很好地收斂到目標位置，而逐畫素損失函式則由於零梯度問題未能收斂。

最優搬運損失函式

該研究定義最小搬運功（即 Wasserstein distance）作為畫布和輸入影象間的相似度度量。對於給定的畫布 h和輸入影象，它們的歸一化畫素值和被定義為機率邊際函式。表示聯合機率矩陣，其中第（i，j）個元素表示 h 中的第 i 個畫素和中的第 j 個畫素的聯合機率，n 表示影象中的畫素數目。

表示成本矩陣，其第（i，j）個元素表示 h 中的第 i 個畫素和中的第 j 個畫素之間的歐氏距離。因此矩陣

列出了從 h 中的一個位置到中的另一個位置移動單位質量所需要消耗的人力成本。在離散的情況下，經典的最優搬運距離可以寫成一個線性最佳化問題，其中

。

在該研究中，研究者提供了一個經典最優搬運距離的平滑版本，即著名的 Sinkhorn distance。該距離具有良好的數學性質，並且相比於原始的版本能夠大幅度降低計算成本。透過引入拉格朗日乘子和額外的熵約束，上述最佳化問題可以進一步寫為如下形式：

其中熵。

基於上述形式，最優搬運損失函式可以輕易地整合進引數搜尋流程並且和其他損失函式聯合最佳化。因此，神經風格畫筆的總相似度損失函式定義如下：

其中用於平衡兩個目標函式。

圖 7：上圖展示了逐畫筆的繪畫結果，其中第一行基於馬克筆生成，第二行基於油畫筆生成。右側影象展示了最佳化過程中的損失函式曲線。

與神經風格遷移聯合最佳化

由於神經風格畫筆是在引數搜尋正規化下實現的，因此該方法天然地適合神經風格遷移框架。由於神經風格遷移被設計為透過更新影象畫素來最小化內容損失函式（content loss）和風格損失函式（style loss），因此研究者進一步將風格損失函式融入神經風格畫筆中，以實現風格化的輸出。擴充套件後的相似度度量函式可以定義為如下形式：