廣西網絡推廣

NEWS INFORMATION

網絡資(zī)訊

深度殘差網絡的主要分(fēn)析及操作

作者:admin 發布時間:2020-02-15

深度殘差網絡的主要分(fēn)析及操作

前言 本文的主要貢獻是通過理論分(fēn)析和廣泛的實驗證明了使用恒等映射 ( ) 作爲殘差塊的快捷連接 (skip ) 的重要性。同時将BN/ReLu的操作移到了Conv(真正的操作)之前,提出了“預激活”操作,與“激活後”操作的對比實驗表明,對于多層網絡殘差網絡的核心設計,使用預激活殘差單元。(預單元)v2 都比 v1(或 v1.5)取得更好的結果。概括

最近出現了很多基于深度殘差網絡(deep)的非常深的網絡架構,它們在準确率和收斂性方面的表現非常出色。本文主要分(fēn)析殘差網絡的基本構建塊(block)中(zhōng)的信号傳播。本文發現,當恒等映射(·)作爲快捷連接(skip)并在加法運算後移動激活函數時,正向和反向信号都可以直接在兩個塊之間傳播,而不受任何變換操作的影響。同時,大(dà)量的實驗結果證明了恒等映射的重要性。基于這一(yī)發現,本文重新設計了殘差網絡基本單元(unit),使網絡更容易訓練,提高泛化性能。

請注意,這裏的實驗是深度 ($\geq$ 110 ) 實驗,所以我(wǒ)認爲,對于深層,使用“預激活”殘差單元 (v2) 的網絡 (v2) 更容易訓練且更準确。高的。1 簡介

深度殘差網絡 (·) 由一(yī)堆殘差單元 (Units) 組成。每個殘差單元(圖 1(a))可以表示爲:

高層建築核心筒設計_殘差網絡的核心設計_基于quartus ii的計算機核心設計

其中(zhōng)x_l和x_{l+1}是第l個殘差單元的輸入和輸出,F是殘差函數。其中(zhōng) h(x_{l})= x_{l} 是恒等映射(),f 是 ReLU 激活函數。超過 1000 層的殘差網絡在數據集和 COCO 數據集上都達到了當前的最佳精度。殘差網絡的核心思想是在h(x_{l})的基礎上學習一(yī)個額外(wài)的殘差函數F。關鍵選擇是使用恒等映射 h(x_{l})= x_{l},這可以通過向網絡添加恒等快捷方式(跳過)來實現。

本文的主要目的是分(fēn)析在深度殘差網絡中(zhōng)“直接”信息傳播路徑的構建——不僅僅是直接在殘差單元中(zhōng),而是在信息可以“直接”傳播的整個網絡中(zhōng)。如果 h(x_{l}) 和 f(y_{l}) 都是恒等映射,則信号可以直接在單元之間進行前向反向傳播。實驗表明,基本滿足上述條件的網絡架構一(yī)般更容易訓練。在本文中(zhōng),我(wǒ)們對不同形式的 h(x_{l}) 進行了實驗,發現使用恒等映射的網絡具有最好的性能、最快的錯誤減少和最低的訓練損失。這些實驗表明,“幹淨”的信息渠道有助于優化。

高層建築核心筒設計_基于quartus ii的計算機核心設計_殘差網絡的核心設計

爲了構造f(y_{l})=y_{l}的恒等映射,本文将激活函數(ReLU和BN)移到權重層(Conv)之前殘差網絡的核心設計,形成“預激活(pre-) ” 代替傳統的“後激活(post-)”方法,設計了一(yī)個新的殘差單元(見圖1(b))。基于這個新單元,我(wǒ)們使用 1001 層的殘差網絡在 CIFAR-10/100 數據集上進行訓練,發現新的殘差網絡比之前的更容易訓練和泛化更好。同時,還考察了 200 層新殘差網絡的性能。原來的殘差網絡在這個層數之後開(kāi)始過拟合。這些結果表明,在網絡深度這個維度上還有很大(dà)的探索空間,畢竟深度是現代神經網絡成功的關鍵。

2.深度殘差網絡分(fēn)析

原始殘差單元可以表示爲:

高層建築核心筒設計_基于quartus ii的計算機核心設計_殘差網絡的核心設計

在 中(zhōng),函數 h 是一(yī)個恒等映射,即 h(x_{l}) = x_{l} 。公式的參數說明如下(xià)圖所示:

基于quartus ii的計算機核心設計_殘差網絡的核心設計_高層建築核心筒設計

如果函數 f 也是一(yī)個恒等映射,即 y_{l}\equiv y_{l} ,則方程 (1)(2) 可以組合爲:

那麽任意深單元L和淺單元l之間的關系爲:

基于quartus ii的計算機核心設計_高層建築核心筒設計_殘差網絡的核心設計

等式 (4) 有兩個性質:

深單元的特征可以通過淺單元的特征和殘差函數相加得到;任何深度單元的特征都可以通過起始特征x_0和之前所有的殘差函數相加得到,這與普通(普通)網絡不同,普通網絡的深度特征是通過一(yī)系列矩陣向量相乘得到的。殘差網絡是連續加法,普通網絡是連續乘法。

公式(4)也帶來了良好的反向傳播特性。損失函數用\表示。根據反向傳播的鏈式傳導規則,反向傳播公式如下(xià):

基于quartus ii的計算機核心設計_殘差網絡的核心設計_高層建築核心筒設計

由式(5)可以看出,反向傳播也是兩條路徑,一(yī)條直接将信息傳回來,另一(yī)條經過所有的加權層。另外(wài)可以注意到,在一(yī)個mini-batch中(zhōng),第二項的值不可能總是-1,也就是說,無論網絡中(zhōng)權重的值多小(xiǎo),返回的梯度都不會消失,不會出現梯度消失現象。.

3. 關于跳過

考慮恒等映射的重要性。假設恒等映射更改爲 h(x_{l}) = \{l}x_{l}) ,則:

像方程(4)一(yī)樣遞歸調用方程(3),我(wǒ)們得到:

高層建築核心筒設計_殘差網絡的核心設計_基于quartus ii的計算機核心設計

其中(zhōng),\hat{F}表示将标量并入殘差函數,與公式(5)類似,反向傳播公式如下(xià):

基于quartus ii的計算機核心設計_殘差網絡的核心設計_高層建築核心筒設計

與等式 (5) 不同,等式 (8) 的第一(yī)個加法項由因子 \prod_{i=l}^{L-1}\{i} 調整。對于一(yī)個很深的網絡(L很大(dà)),考慮第一(yī)個乘法項,如果所有\都大(dà)于1,那麽這個項呈指數增長;如果所有\小(xiǎo)于1,則該項将很小(xiǎo)甚至消失,從而阻止反向傳播信号并迫使其流過權重層。本文通過實驗證明,該方法會導緻模型優化困難。

此外(wài),其他不同形式的變換映射也會阻礙信号的有效傳播,從而影響訓練過程。

基于quartus ii的計算機核心設計_殘差網絡的核心設計_高層建築核心筒設計

4.關于使用

第 3 章探讨了使用不同形式的映射(參見圖 2)來驗證函數 h 是恒等映射的重要性。本章讨論方程(2)中(zhōng)的f,如果f也是恒等映射,網絡的性能會更好嗎(ma)?提高。通過調整激活函數(ReLU 和/或 BN)的位置,f 是一(yī)個恒等映射。圖 4 爲激活函數在不同位置的殘差單元結構圖。

圖 4(e) 中(zhōng)的“預激活”操作是本文提出的一(yī)種網絡結構 (v2),可以更有效地訓練深度殘差網絡。

基于quartus ii的計算機核心設計_高層建築核心筒設計_殘差網絡的核心設計

4.1。上

在本章中(zhōng),我(wǒ)們使用 -110 和 164 層的瓶頸結構(稱爲 -164)進行實驗。瓶頸殘差單元包含一(yī)個 1×1 層來降低維度,一(yī)個 3×3 層和一(yī)個 1×1 層來恢複維度。如論文所述,其計算複雜(zá)度類似于由兩個 3×3 卷積層組成的殘差單元。

BN after的效果比差。将BN層移到加法運算的後面會阻礙信号傳播。一(yī)個明顯的現象是,在訓練的早期,誤差下(xià)降緩慢(màn)。

如果 ReLU 以這種方式組合,殘差函數分(fēn)支的輸出将始終保持非負,這會影響模型的表示能力,并且實驗結果也表明這種組合比基準更差。

Post- 或 pre- 在原始設計中(zhōng),在加法運算之後有一(yī)個 ReLU 激活函數。這個激活函數會影響殘差單元的兩個分(fēn)支。現在移到殘差函數分(fēn)支,快捷連接分(fēn)支不再受影響。具體(tǐ)操作如圖5所示。

基于quartus ii的計算機核心設計_高層建築核心筒設計_殘差網絡的核心設計

根據激活函數與加法運算的位置關系,我(wǒ)們将之前的組合方式稱爲“激活後(post-)”,現在将新的組合方式稱爲“激活前(pre-)”。原始設計和預激活殘差單元的性能對比如表3所示。預激活方法可以分(fēn)爲兩種:隻把ReLU放(fàng)在前面,或者把ReLU和BN都放(fàng)在前面。根據表 2 的結果可以看出,full pre- 的效果更好。

殘差網絡的核心設計_基于quartus ii的計算機核心設計_高層建築核心筒設計

高層建築核心筒設計_基于quartus ii的計算機核心設計_殘差網絡的核心設計

4.2,

使用預激活有兩個好處:1)f變成了恒等映射,使得網絡更容易優化;2)使用BN作爲預激活可以加強模型的正則化。

在訓練 1001 層殘差網絡時,這一(yī)點尤爲明顯,詳見圖 1。使用原設計的網絡,初始階段誤差下(xià)降很慢(màn),因爲f是ReLU激活函數,當信号爲負時會被截斷,使得模型無法很好的逼近預期函數;在使用預激活網絡時,f 是常數。等映射,信号可以直接在不同的單元中(zhōng)直接傳播。本文使用的 1001 層網絡優化得非常快,并且達到了最低的誤差。

f是ReLU對淺層殘差網絡影響不大(dà),如圖6-右所示。本文認爲,當網絡經過一(yī)段時間的訓練後,适當調整權重,使得單元的輸出基本是非負的,f不會再截斷信号。但截斷經常發生(shēng)在超過 1000 層的網絡中(zhōng)。

高層建築核心筒設計_殘差網絡的核心設計_基于quartus ii的計算機核心設計

看圖 6-右,預激活網絡的訓練誤差略高,但測試誤差較低。本文推測這是由于BN層的正則化效應。在原始殘差單元中(zhōng),BN雖然對信号進行了歸一(yī)化,但很快被合并到 ()上,合并後的信号沒有歸一(yī)化。這個未歸一(yī)化的信号又(yòu)被用作下(xià)一(yī)個權重層的輸入。相比之下(xià),在我(wǒ)們的模型的預激活(預)版本中(zhōng),權重層的輸入總是被歸一(yī)化的。

5.

表 4 和表 5 分(fēn)别顯示了不同深度網絡在不同數據集上的性能。使用的預激活單元和更深的殘差網絡(v2)都達到了最佳精度。

基于quartus ii的計算機核心設計_高層建築核心筒設計_殘差網絡的核心設計

殘差網絡的核心設計_基于quartus ii的計算機核心設計_高層建築核心筒設計

六,結論

恒等映射形式的快捷連接和預激活對于網絡中(zhōng)的平滑信号傳播至關重要。

參考【DL--】002-in Deep(譯)in Deep 最後,如果你在閱讀文章中(zhōng)有所收獲,一(yī)定要先點贊再收藏。畢竟,當你給某人一(yī)朵玫瑰時,你的手中(zhōng)就有了餘香。

了解更多學習網絡推廣知(zhī)識,就來廣西網絡推廣。

上一(yī)篇:【每日一(yī)題】網絡層數越深,梯度彌散現象可能會越嚴重
下(xià)一(yī)篇:,今工(gōng)程機械怎麽做網絡推廣哪家好物(wù)流網絡代運營越難賺

广西南宁弄潮营销策划有限责任公司 :  版權所有