共享的骨架網絡(Pose,PRNPRN)(圖)
: 使用 Pose 的快速多姿勢
圖1
簡介:多人姿态估計可以分(fēn)爲兩個子問題。第一(yī)個問題是準确檢測人體(tǐ)關節;第二個問題是将檢測到的關節點分(fēn)配給人類實例。提出的使用姿态殘差網絡(Pose,PRN)共同解決了人體(tǐ)目标檢測、關鍵點檢測、人體(tǐ)分(fēn)割和姿态估計等問題。作爲一(yī)種自下(xià)而上的姿态估計方法,該方法在 COCO 數據集上實現了最好的姿态估計精度,在實時估計速度上表現出很強的競争力。
文獻資(zī)料
1個創新點
1.1 提出新的關鍵點分(fēn)配網絡——Pose
圖 2
網絡的輸入是關鍵點和檢測到的人物(wù)内容圖。通過将相應的關鍵點分(fēn)配給圖像内容,爲每個人構建相應的姿勢。作者将網絡命名爲 Pose(如圖 2 所示)。PRN使用感興趣區域(RoI)對關鍵點檢測結果進行處理,處理後的結果輸入到殘差多層感知(zhī)網絡中(zhōng)。PRN可以同時考慮和學習所有關鍵點的結構特征,從而更好地實現關鍵點分(fēn)配問題。
2 方法概述
圖 3
它是一(yī)種從低到高的二維圖像姿态估計方法。它使用多任務學習模型共同解決字符和關鍵點檢測、字符分(fēn)割和姿态估計等問題。網絡的整體(tǐ)流程如圖3所示。網絡首先使用共享骨架網絡( )對2D圖像進行特征提取,用于關鍵點檢測子網和人物(wù)分(fēn)割子網;然後使用 PRN 對獲得的關鍵點和人物(wù)分(fēn)割圖進行姿态估計。下(xià)面描述每個模塊的細節。
2.1 共享骨架網絡
共享骨架網絡實際上由兩個特征金字塔網絡( , FPN)組成,其中(zhōng)一(yī)個FPN用于關鍵點檢測子網,另一(yī)個用于字符分(fēn)割子網。FPN 目前在對人進行分(fēn)類和定位方面表現出更好的性能。在論文的方法中(zhōng),FPN分(fēn)别與C2-C5中(zhōng)C2-C5卷積層的輸出特征相連接,實現層次特征的充分(fēn)利用。通過這種機制,FPN實現了高分(fēn)辨率圖像的強特征表示和低分(fēn)辨率圖像的弱分(fēn)辨率表示。對于不同尺度的特征,采用不同的采樣步驟。
2.2 關鍵點估計子網
圖 4
關鍵點估計的具體(tǐ)過程如圖4所示。關鍵點估計子網的輸入是FPN提取的分(fēn)割後的圖像特征,輸出是圖像關鍵點和分(fēn)割後的字符熱圖表示。
子網估計的熱圖使用高斯峰值函數來表示字符的關鍵點。每層熱圖代表一(yī)類關鍵點(鼻子、手腕等),包含的關鍵點數量由圖像中(zhōng)的角色實例決定。最後一(yī)層熱圖表示的人物(wù)分(fēn)割掩碼編碼圖像中(zhōng)人物(wù)的像素級空間布局。
FPN提取的分(fēn)層圖像特征具有相同的深度和不同的尺度。經過激活和上采樣後殘差網絡的核心設計,得到相同深度和尺度的分(fēn)層特征。最終的通過1*1卷積得到,的層數爲K+1,其中(zhōng)K代表一(yī)個字符的關鍵點個數,1表示最後一(yī)層是用于字符分(fēn)割的。(還有疑問,爲什麽要有人物(wù)檢測子網來預測人物(wù)分(fēn)割圖片?)
2.3 人員(yuán)檢測子網
圖 5
人物(wù)檢測的流程如圖5所示,其中(zhōng)網絡P是用于檢測人物(wù)的金字塔網絡,采用網絡模型,隻是分(fēn)類和回歸被修改爲适合人物(wù)标簽、損失函數和金字塔的數據處理特征提取等計算方法不變(同)。
2.4 姿态殘差網絡(Pose,PRN)
圖 6
PRN的數據處理模式如圖6左圖所示。由于圖像中(zhōng)可能存在重疊的人,所以在一(yī)個人檢測幀中(zhōng)可能存在多個人的身體(tǐ)成分(fēn)殘差網絡的核心設計,這在關鍵點分(fēn)配過程中(zhōng)容易産生(shēng)歧義(檢測框中(zhōng)的哪個人被分(fēn)配給重疊的關鍵點)。
将輸入到 PRN 的人檢測框形成相同大(dà)小(xiǎo)的框,便于網絡處理。
K個不同的關鍵點熱圖用X=\{x_{1},x_{2},...,x_{k}\}表示,PRN的目的是計算每個關鍵點的位置信息Y=\ {y_{1},y_{2},...,y_{k}\},具體(tǐ)計算公式如下(xià)
y_{k}=\phi_{k}(X)+x_{k}
在公式中(zhōng),\phi_{1}(\cdot),...,\phi_{K}(\cdot) 對 X 使用了殘差連接,這些連接是使用多個感知(zhī)殘差網絡實現的。輸出層使用該函數計算關鍵點的概率分(fēn)布,訓練過程中(zhōng)使用二元交叉熵損失函數作爲目标函數。
作者假設PRN的每個隐藏節點都編碼了一(yī)個固定的人體(tǐ)姿态,圖6右側顯示了部分(fēn)PRN的輸出(處理後)。
3 總結
圖 7
文章姿态估計結果的呈現如圖7所示。可以發現,該模型能夠更好地預測多人圖像中(zhōng)不同人的姿态,并且對于重疊的内容也能很好地進行姿态估計。人體(tǐ)。
如果能用于pose ,或許能解決多人pose 的問題
(如有錯誤請指正)
了解更多學習網絡推廣知(zhī)識,就來廣西網絡推廣。
上一(yī)篇:記住這句話(huà)非常重要:網絡推廣的本質以及内行該有的操作章法广西南宁弄潮营销策划有限责任公司 : 版權所有