概述
在藝術領域,藝術家可以通過風格和內容的相互交融來創(chuàng)作不同的畫作,現(xiàn)階段,在深度神經(jīng)網(wǎng)絡的幫助下,計算機可以輕易的識別畫作中的物體或者內容。但是,風格是一個比較抽樣的概念,計算機其實無法像人類那樣識別一個畫作或者藝術家的風格。這篇文章主要介紹深度神經(jīng)網(wǎng)絡將畫作中的風格和內容本身進行分離,并將風格做遷移,應用到另一個圖片內容之中,最終達到一個風格遷移的工作。其實這很像Photoshop中的濾鏡,然而濾鏡畢竟是人為設定好的一系列動作處理集合,只能針對特定風格的圖片,對于不同特征的圖片,需要選擇不同的濾鏡,因此是比較機械和人工的。
卷積神經(jīng)網(wǎng)絡在圖像識別領域應用廣泛,并且實踐證明有很好的效果。它通過一個多層的網(wǎng)絡結構來對圖像進行特征表達,如果我們把輸入圖像稱之為網(wǎng)絡的底層,則隨著網(wǎng)絡層次的加深,高層的網(wǎng)絡關注圖片的高級特征,例如圖像的內容或者物體的排列,而底層的信息則重點關注圖像像素級別的特征。為了將圖像的風格和內容分離并進行遷移,我們需要做兩部分工作:
- 圖像內容的重建
- 風格的重建
同時在合成是要同時考慮內容重建造成的loss和風格重建造成的loss。
內容重建
內容重建和風格重建都使用了VGG網(wǎng)絡,VGG-16的網(wǎng)絡結構圖參見下圖,詳情圖來自于這里.
圖1 VGG網(wǎng)絡結構圖
對于內容重建來說,只使用了前5層的網(wǎng)絡‘conv1 1’ (a), ‘conv2 1’ (b), ‘conv3 1’ (c), ‘conv4 1’ (d) and ‘conv5 1’ (e),即圖2中的a、b、c、d、e。VGG 網(wǎng)絡主要用來做內容識別,在實踐中作者發(fā)現(xiàn),使用前三層a、b、c已經(jīng)能夠達到比較好的內容重建工作,d、e兩層保留了一些比較高層的特征,丟失了一些細節(jié)。