<th id="wyrdw"><track id="wyrdw"></track></th>
  • <li id="wyrdw"></li>

    <tbody id="wyrdw"></tbody>
    <button id="wyrdw"><acronym id="wyrdw"></acronym></button>
    <dd id="wyrdw"></dd>

    首頁頭條資訊 科技 正文

    深層網絡的隱式語義數據擴增

    10個月前 ( 10-30 ) 615 0條評論
    本站文章部分來源于網友投稿或采集自互聯網,如有侵權,請聯系,本站將及時刪除。 另也歡迎廣大網友投稿發文!


    在本文中,我們提出了一種新穎的隱式語義數據擴增 ISDA 方法,以補充諸如翻轉,平移或旋轉之類的傳統擴充技術。我們的工作受到有趣的屬性的啟發,即深層網絡擅長于線性化特征,從而使深層特征空間中的某些方向對應于有意義的語義轉換,例如添加陰影或更改背景。因此,在特征空間中沿許多語義方向翻譯訓練樣本可以有效地擴充數據集以提高泛化能力。為了有效且高效地實現這一思想,我們首先對每個類別的深度特征的協方差矩陣進行在線估計,以獲取類別內語義的變化。然后從具有估計協方差的零均值正態分布中提取隨機向量,以增強該類別中的訓練數據。重要的是,我們可以直接最小化增強訓練集上期望交叉熵(CE)損失的上限,而不是顯式地增強樣本,從而得到了一種高效算法。實際上,我們證明了所提出的 ISDA 可以最大程度地減少健壯 CE 損失,從而給正常訓練過程增加了可忽略的額外計算成本。盡管 ISDA 很簡單,但它不斷提高了流行的深度模型 ResNet 和 DenseNet 在各種數據集(例如 CIFAR 10,CIFAR 100 和 ImageNet)上的泛化性能??稍谝韵挛恢毛@得用于重現我們結果的代碼:https://github.com/blackfeatherwang/ISDA-for-Deep-Networks。

    1 介紹

    數據增強是一種有效的技術,以緩解訓練深度網絡[1,2,3,4,5]中的過擬合問題。在圖像識別的背景下,這通常對應于在輸入樣本上應用保留內容的轉換,例如裁剪、水平鏡像、旋轉和顏色抖動。這些增強技術雖然有效,但不能進行語義轉換,例如改變對象的背景或前景對象的紋理。最近的工作表明,如果允許語義轉換(類標識保持),數據增強技術可能更強大[6,7,8]。例如,通過為訓練集中的每個類訓練一個生成性對抗網絡(GAN),就可以從生成器中采樣無限數量的樣本。不幸的是,這個過程在計算上是密集的,因為訓練生成模型并推斷它們以獲得增強樣本是不簡單的任務。此外,由于數據量的增加,訓練過程也可能會延長。

    本文提出了一種用于訓練深度圖像識別網絡的隱式語義數據擴增(ISDA)算法。ISDA 是高效的,因為它不需要訓練/推斷輔助網絡或顯式地生成額外的訓練樣本。我們的方法是由最近的工作所做的有趣的觀察所驅動的,這些觀察表明網絡中的深層特征通常是線性化的[9,10]。具體來說,在深層特征空間中存在許多語義方向,使得沿著這些方向中的一個數據樣本被翻譯成一個特征表示,對應于具有相同類標識但語義不同的另一個樣本。例如,某一方向對應于“戴眼鏡”的語義翻譯。當一個不戴眼鏡的人的特征沿著這個方向被翻譯時,新的特征可能對應于同一個戴眼鏡的人(新圖像可以使用適當的算法顯式重建,如[9]所示)。因此,通過搜索許多這樣的語義方向,我們可以有效地擴充訓練集,以補充傳統的數據增強技術。

    然而,顯式地找到語義方向并不是一項簡單的任務,這通常需要大量的人工注釋[9]。相反,隨機采樣方向是有效的,但可能會導致無意義的轉換。例如,對”car”類應用”make-beaspeacled”轉換是沒有意義的。在本文中,我們采用了一種簡單的方法,在有效性和效率之間取得了很好的平衡。具體地說,我們對每個類的特征協方差矩陣進行在線估計,從而捕獲類內的變化。然后,我們從零均值多元正態分布與估計的協方差中采樣方向,并將其應用于該類別中訓練樣本的特征以擴充數據集。這樣,生成無意義的語義轉換的幾率可以大大降低。

    為了進一步提高效率,我們用所提出的數據增強方案導出了期望交叉熵(CE)損失的封閉形式上界。因此,我們可以直接最小化上界,而不是顯式地執行增強過程,這實際上是一種新的魯棒損失函數。由于不需要生成顯式的數據樣本,我們將我們的算法稱作隱式語義數據擴增(ISDA)。與現有的語義數據增強算法相比,我們所提出的 ISDA 可以在大多數深層模型之上方便地實現,而不需要引入輔助模型或額外的計算成本。

    雖然 ISDA 算法簡單,但是它的有效性令人驚訝,并且很好地補充了現有的非語義數據擴增技術。我們對幾種有競爭力的圖像分類基準進行了大量的實證分析,結果表明,ISDA 能夠有效地提高常用深度網絡的泛化性能,特別是在訓練數據較少和傳統增強技術的情況下。

    深層網絡的隱式語義數據擴增

    2 相關工作

    在本節中,我們簡要回顧了現有的相關課題研究。

    數據擴增技術是一種廣泛應用于深度網絡訓練的方法。例如,在圖像識別任務中,應用諸如隨機翻轉、鏡像和旋轉等數據增強技術來增強卷積網絡中的某些不變性[4,5,3,11]。最近,提出了自動數據擴增技術,如 AutoAugment[12],以在大量候選對象中尋找更好的擴充策略。與我們的方法類似,具有邊緣化損壞特征的學習[13]可以看作是一種隱式數據擴增技術,但它僅限于簡單的線性模型。另一方面,最近的研究表明,將類標識保持轉換(如改變對象背景或改變視角)應用于訓練數據的語義數據擴增技術也是有效的[14,15,6,8]。這通常是通過生成具有特殊深度結構的額外語義轉換訓練樣本來實現的,如 DAGAN[8]、域適應網絡[15]或其他基于 GAN 的生成器[14,6]。雖然這些方法是有效的,但由于需要預先訓練生成模型并在訓練過程中進行推斷,這些方法實現起來并不容易,而且計算成本也很高。

    魯棒損失函數。如文中所示,ISDA 相當于最小化一個新的魯棒損失函數。因此,我們就這一課題的相關工作作一簡要回顧。近年來,人們提出了幾種用于深度學習的魯棒損失函數。例如,Lqloss[16]是由負 Box-Cox 變換導出的交叉熵(CE)損失和平均絕對誤差(MAE)損失的一種平衡噪聲魯棒形。focus loss[17]將高權重附加到稀疏的硬示例集上,以防止大量簡單樣本主導網絡的訓練。在[18,19,20]中提出了引入較大的 CE 損耗裕度的想法。在[21]中,將 CE 損失和對比損失結合起來,以學習更多的區分特征。從相似的角度來看,中心損失[22]同時學習了每個類別的深層特征的中心,并區別對待了特征空間中樣本與它們對應的類別中心之間的距離,從而增強了類別內的緊湊性和類別間的可分離性。

    深層特征空間中的語義轉換。我們的工作源于這樣一個事實:由深卷積網絡學習的高級表示可以潛在地捕獲語義抽象[23,10]。事實上,在特定方向上翻譯深層特征與對輸入圖像執行有意義的語義轉換相對應。例如,深度特征插值[9]利用預先訓練的神經網絡對深度特征的簡單插值來實現語義圖像轉換?;谧兎肿詣泳幋a器(VAE)和生成對抗性網絡(GAN)的方法[24,25,26]建立了一個與圖像抽象相對應的潛在表示,可對其進行操作以編輯圖像的語義。一般來說,這些方法揭示了深層特征空間中的某些方向對應于有意義的語義轉換,并可用于執行語義數據擴增。

    3 方法

    眾所周知,深度網絡擅長于在深層特征空間[4,5,9,27]中形成高層次的表示,樣本之間的語義關系可以通過特征的相對位置來捕捉[10]。以往的研究表明,當特征映射到輸入空間時,向特定方向轉換特征對應于有意義的語義轉換[9,28,10]。在此基礎上,我們提出在特征空間中直接擴充訓練數據,并將此過程整合到深層模型的訓練中。

    隱式語義數據擴增(ISDA)包含兩個重要組成部分,即類條件協方差矩陣的在線估計和魯棒損失函數的優化。第一個組件的目標是找到一個分布,我們可以從中抽取有意義的語義轉換方向來進行數據擴增,而第二個組件可以避免顯式地生成大量額外的訓練數據,與現有的數據擴增技術相比,ISDA 具有顯著的效率。

    3.1 深層特征空間的語義轉換

    如前所述,深層特征空間中的某些方向對應于有意義的語義轉換,如“make-bespectacled”或“change-view-angle”。這促使我們通過在深層特征上應用這種語義轉換來擴充訓練集。然而,對于大規模的問題,人工搜索語義方向是不可行的。為了解決這個問題,我們建議從一個零均值的正態分布和一個與類內協方差矩陣成比例的協方差中抽樣隨機向量來近似該過程,該協方差矩陣捕獲了該類樣本的方差,因此很可能包含豐富的語義信息。

    直觀地說,person 類的特征可能會沿著“make-bespectacled”的方向變化,而在“has puller”方向上幾乎沒有變化,這種變化只出現在其他類,如 plane 類中。我們希望每個類的協方差矩陣的主成分能很好地表示每個類的有意義變換對應的方向。

    深層網絡的隱式語義數據擴增

    3.2 隱式語義數據擴增(ISDA)

    深層網絡的隱式語義數據擴增

    顯然,簡單實現在 M 很大的時候計算效率很低,因為特征集會被放大 M 倍。下面,我們考慮 M 增長到無窮大的情況,并發現損失函數可以得到一個易于計算的上界,從而得到了一個高效的實現。

    深層網絡的隱式語義數據擴增

    深層網絡的隱式語義數據擴增

    4 實驗

    在這一部分中,我們在幾個廣泛使用的圖像分類基準,即 CIFAR-10、CIFAR-100[1]和 ImageNet[29]上對所提出的算法進行了實證驗證。我們首先在這些數據集上評估不同深度網絡架構下 ISDA 的有效性。其次,在標準基線增強的基礎上,我們應用了最近提出的幾種非語義圖像增強方法,并研究了 ISDA 的性能。第三,我們比較了最新的魯棒損失函數和基于生成器的語義數據擴增算法。最后,進行消融研究,以檢查每個成分的有效性。我們還借助生成網絡在原始輸入空間中可視化增強樣本。

    4.1 數據集和基線

    數據集。我們在實驗中使用了三個圖像識別基準。(1)兩個 CIFAR 數據集由 CIFAR-10 的 10 個類中的 32x32 彩色自然圖像和 CIFAR-100 的 100 個類中的 32x32 彩色自然圖像組成,其中 50000 個圖像用于訓練,10000 個圖像用于測試。在我們的實驗中,我們從訓練集中拿出 5000 幅圖像作為驗證集來搜索超參數 λ0。這些樣本在選擇最優 λ0 后也用于訓練,并報告了在測試集上的結果。采用通道均值和標準差對圖像進行歸一化預處理。對于訓練集的非語義數據擴增,我們遵循[30]中的標準操作:在圖像的每側填充 4 個像素,然后結合隨機水平翻轉進行 32x32 的隨機裁剪。(2)ImageNet 是 ILSVRC2012[29]提供的 1000 類數據集,提供 120 萬張用于訓練的圖像和 50000 張用于驗證的圖像。我們采用了[2,4,5]中相同的增強配置。

    非語義增強技術。為了研究 ISDA 對傳統數據擴增方法的互補作用,應用了兩種最先進的非語義擴充技術,分別使用和不使用 ISDA。(1)Cutout[31]在訓練期間隨機屏蔽輸入的正方形區域,以使模型正則化。(2)AutoAugment[32]自動搜索最佳的擴充策略,以在目標數據集上獲取最高的驗證精度。所有超參數都與介紹它們的論文中聲明的相同。

    基線。我們的方法與幾個基線進行了比較,包括最先進的魯棒損失函數和基于生成器的語義數據增強方法。(1)Dropout[37]是一種廣泛使用的正則化方法,它在訓練過程中隨機地靜音某些神經元。(2)Large-margin softmax loss[18]將用余弦距離測量的大決策裕度引入標準 CE 損失。(3)Disturb label[38]是一種正則化機制,它在每次迭代中用不正確的標簽隨機替換一小部分標簽。(4)focus loss[17]將重點放在一組稀疏的硬示例上,以防止簡單樣本主導訓練過程。(5)Center loss[22]同時學習每個類的特征中心,并最小化深度特征與其對應的類中心之間的距離。(6)Lqloss[16]是一種噪聲-魯棒損失函數,采用負 Box-Cox 變換。(7) 對于基于生成器的語義擴充方法,我們訓練了幾個最先進的 GAN[39,40,41,42],然后使用這些 GAN 生成額外的訓練樣本進行數據擴增。為了公平比較,在可能的情況下,所有方法都使用相同的訓練配置來實現。超參數設置的詳細信息見附錄 B。

    訓練細節。對于深層網絡,我們在 CIFAR 上實現 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet,在 ImageNet 上實現 ResNet、ResNeXt 和 DenseNet。附錄 B 給出了這些模型的詳細配置。ISDA 的超參數 λ0 根據驗證集的性能從集合{0.1,0.25,0.5,0.75,1}中選擇。在 ImageNet 上,由于 GPU 內存的限制,我們利用協方差矩陣的對角線來近似協方差矩陣,即特征各維的方差。從{1,2.5,5,7.5,10}中選擇最佳超參數 λ0。

    4.2 主要結果

    表 1 顯示了 ISDA 在具有最先進的深層網絡的大規模 ImageNet 數據集上的性能??梢钥闯?,ISDA 顯著提高了這些模型的泛化性能。例如,通過使用 ISDA 進行訓練,ResNet-50 的 Top-1 錯誤率降低了 1.1%,接近 ResNet-101 的性能(21.9%v.s.21.7%),參數減少了 43%。同樣,ResNet-101+ISDA 的性能超過了 ResNet-152,參數減少了 26%。與 ResNets 相比,DenseNets 由于其架構設計而受到的過擬合影響較小,因此似乎從我們的算法中獲益較少。

    我們在表 2 中報告了 CIFAR-10/100 上幾種具有和不具有 ISDA 的深度網絡的錯誤率??梢垣@得類似于 ImageNet 的觀測結果。在 CIFAR-100 上,對于相對較小的模型,如 ResNet-32 和 ResNet-110,ISDA 將測試誤差降低了約 1%,而對于 Wide-ResNet-28-10 和 ResNeXt-29、8x64d 等較大模型,我們的方法比競爭基線的性能高出近 0.7%。

    表 3 顯示了最近提出的強大的傳統圖像增強方法(即 Cutout [31]和 AutoAugment[32])的實驗結果。有趣的是,當這些技術存在時,ISDA 似乎更加有效。例如,在應用 AutoAugment 時,在 CIFAR-100 上,通過 Shake-Shake(26,2x112d)和 Wide-ResNet-28-10,ISDA 的性能分別提高了 1.34%和 0.98%。請注意,這些改進比標準情況更重要。對于這種現象,一個合理的解釋是,非語義增強方法有助于學習更好的特征表示,這使得深層特征空間中的語義轉換更加可靠。圖 2 中顯示了在使用 Wide-ResNet-28-10 的 CIFAR-100 上進行訓練時測試誤差的曲線。很明顯,在第三次學習率下降之后,ISDA 取得了顯著改善。在第四次下降之后,ISDA 表現出了更好的性能。

    深層網絡的隱式語義數據擴增深層網絡的隱式語義數據擴增

    深層網絡的隱式語義數據擴增

    深層網絡的隱式語義數據擴增

    4.3 與其他方法的比較

    我們將 ISDA 與第 4.1 節中描述的一些競爭基線進行了比較,從魯棒損失函數到基于生成模型的語義數據擴增算法。結果總結在表 4 中,訓練曲線在附錄 D 中給出??梢杂^察到 ISDA 與所有競爭的基線算法相比都有優勢。使用 ResNet-110,在 CIFAR-10 和 CIFAR-100 上,其他魯棒損失函數的測試誤差分別為 6.38%和 27.85%,而 ISDA 分別達到 6.23%和 27.11%。

    在所有基于 GAN 的語義增強方法中,ACGAN 的性能最好,尤其是在 CIFAR-10 上。但是,這些模型在 CIFAR-100 上的性能通常會降低,因為 CIFAR-100 沒有足夠的樣本為每個類學習有效的生成器。相比之下,ISDA 在所有數據集上顯示出一致的改進。此外,基于 GAN 的方法需要額外的計算來訓練生成器,并在訓練過程中引入大量開銷。相比之下,ISDA 不僅導致較低的泛化誤差,而且更加簡單高效。

    深層網絡的隱式語義數據擴增深層網絡的隱式語義數據擴增

    4.4 可視化結果

    為了證明我們的方法能夠生成有意義的語義增強樣本,我們引入了一種將增強特征映射回像素空間的方法,以明確顯示圖像的語義變化。由于篇幅的限制,我們延后了對映射算法的詳細介紹,并在附錄 C 中給出。

    圖 3 顯示了可視化結果。第一列和第二列表示原始圖像和未經任何增強的重建圖像。其余各列展示了所提出的 ISDA 的增強圖像??梢杂^察到 ISDA 能夠改變圖像的語義,如背景、視角、汽車的顏色和類型、皮膚的顏色等,這對于傳統的數據增強技術來說是不可能的。

    深層網絡的隱式語義數據擴增

    4.5 消融實驗

    為了更好地理解 ISDA 中不同成分的有效性,我們進行了一系列的消融研究。具體來說,考慮了幾個變量:(1)單位矩陣是指用單位矩陣 ∑c 代替協方差矩陣。(2)對角線矩陣是指只使用協方差矩陣 ∑c 的對角元素。(3)單一協方差矩陣是指使用從所有類的特征計算出的全局協方差矩陣。(4)常量 λ0 意味著使用一個常量 λ0,而不將其設置為訓練迭代的函數。

    表 5 給出了消融結果。采用單位矩陣會使 CIFAR-10 的測試誤差增加 0.05%,使 CIFAR-100 的測試誤差增加近 0.56%。使用單一協方差矩陣也會大大降低泛化性能。原因很可能是它們都無法在深層特征空間中找到正確的方向來執行有意義的語義轉換。采用對角線矩陣也會影響性能,因為它沒有考慮特征之間的相關性。

    深層網絡的隱式語義數據擴增

    5 結論

    本文提出了一種有效的隱式語義數據擴增算法(ISDA),以補充現有的數據擴增技術。與現有的利用生成模型來增加語義轉換樣本的訓練集的方法不同,我們的方法更有效,更容易實現。事實上,我們證明了 ISDA 可以表示為一個新的魯棒損失函數,它與任何具有交叉熵損失的深層網絡都兼容。在多個競爭圖像分類數據集上的大量實驗結果表明了該算法的有效性和效率。

    附錄

    A ISDA 實現細節

    深層網絡的隱式語義數據擴增

    深層網絡的隱式語義數據擴增

    B 訓練細節

    在 CIFAR 上,我們實現了 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet。采用具有 Nesterov 動量的 SGD 優化算法對所有模型進行訓練。訓練的具體超參數如表 6 所示。

    在 ImageNet 上,我們使用與 CIFAR 相同的 L2 權重衰減和動量來訓練 300 個迭代的所有模型。初始學習率設置為 0.2,并用余弦進行退火。批大小設置為 512。我們對 DenseNets 采用 λ0 =1,ResNet 和 ResNeXts 采用 λ0=7.5,ResNet-101 使用的是 λ0=5。

    所有基線均采用上述相同的訓練配置。如果它在基本模型中沒有應用,則將 Dropout 率設置為 0.3,以便進行比較,遵循[37]中的說明。對于干擾標簽中的噪聲率,在 CIFAR-10 和 CIFAR-100 數據集上的 Wide-ResNet-28-1 和在 CIFAR10 上的 ResNet-110 中采用 0.05,而 CIFAR100 上的 ResNet-110 使用 0.1。Focus loss 包含兩個超參數 α 和 γ。大量的組合已經在驗證集上進行了測試,我們最終選擇 α=0.5 和 γ=1 進行所有四個實驗。對于 Lqloss,雖然[16]指出 q=0.7 在大多數情況下都能達到最佳性能,但我們建議在我們的實驗中,q=0.4 更適合,因此采用 q=0.4。對于中心損失,我們發現它的性能很大程度上受中心損失模塊的學習率的影響,因此它的初始學習率設置為 0.5,以獲得最佳的泛化性能。

    對于基于生成器的增強方法,我們采用了[39,40,41,42]]中引入的 GANS 結構來訓練生成器。對于 WGAN,在 CIFAR-10 數據集中為每個類訓練一個生成器。對于 CGAN、ACGAN 和 infoGAN,只需要一個模型就可以生成所有類的圖像。采用標準正態分布的 100 噪聲作為輸入,生成與其標簽相對應的圖像。特別地,infoGAN 具有兩個維度的額外輸入,它們代表整個訓練集的特定屬性。合成圖像在每一個批處理中都有固定的比例?;隍炞C集的實驗,將廣義圖像的比例設為 1/6。

    深層網絡的隱式語義數據擴增

    C 反向卷積網絡

    為了明確說明 ISDA 所產生的語義變化,我們提出了一種將深度特征映射回像素空間的算法。一些額外的可視化結果如圖 5 所示。

    圖 4 顯示了該算法的概述。由于卷積網絡(如 ResNet 或 DenseNet)沒有閉合形式的逆函數,映射算法的作用類似于[43]和[9],通過固定模型和調整輸入來找到與給定特征相對應的圖像。然而,考慮到 ISDA 本質上增強了圖像的語義,我們發現直接優化像素空間中的輸入是無關緊要的。因此,我們添加了一個固定的預訓練生成器 G,它是通過訓練 wasserstein GAN[39]獲得的,以生成分類模型的圖像,并優化生成器的輸入。這種方法使得用增強語義有效地重建圖像成為可能。

    映射算法可分為兩個步驟:

    所提出的算法是在單個批處理上執行的。在實際應用中,采用 ResNet-32 網絡作為卷積網絡。 我們采用標準梯度下降(GD)算法進行 10000 次迭代來解決 Eq.15 16。對于步驟一和步驟二,初始學習速率分別設置為 10 和 1,每 2500 次迭代除以 10。我們應用了 0.9 的動量和 1e-4 的 l2 重量衰減。

    D 附加實驗結果

    最新方法和 ISDA 的測試誤差曲線如圖 6 所示。ISDA 的性能一直優于其他方法,并且在所有情況下都表現出最好的泛化性能。值得注意的是,ISDA 在 CIFAR-100 中降低了測試誤差,這表明我們的方法更適合于樣本較少的數據集。這一觀察結果與本文的結果一致。除此之外,在 CIFAR-10 上,中心損失方法與 ISDA 相比具有一定的競爭力,但它并不能顯著提高 CIFAR-100 的泛化能力。

    深層網絡的隱式語義數據擴增深層網絡的隱式語義數據擴增

    致謝

    本文由南京大學 ISE 實驗室 2020 級碩士李彤宇轉述翻譯

    文章版權及轉載聲明

    本文作者:q16699894 網址:http://www.bokeen.com/post/95.html發布于 10個月前 ( 10-30 )
    文章轉載或復制請以超鏈接形式并注明出處。

    發表評論

    評論列表 (暫無評論,615人圍觀)參與討論

    還沒有評論,來說兩句吧...

    美女一级在线观看网站_午夜性交一级毛片_蜜芽跳转接口在线观看_热久久视久久精品2019