本篇文章3180字,讀完約8分鐘

深圳汽車抵押貸款【科技在線】

最近,百度利用新的人臉檢測深度學習算法pyramidbox,在全球權威人臉檢測公開評測集wider face的“easy”、“medium”、“hard”三個評測子集中排名第一,業(yè)界表現(xiàn)良好 論文簡要介紹該算法背后的技術。

1引言

人臉檢測是各種人臉APP測試中的基本任務。 viola - jones [1]的獨創(chuàng)性研究利用具有類哈爾特征的adaboost算法來訓練級聯(lián)臉部和非人臉部的分類器。 之后,不斷有人深入研究[ 2,3,4,5,6,7 ]以改進級聯(lián)檢測器。 然后,[8、9、10]通過對可變形的面部關系進行建模,將可變形部件模型( dpm )導入到面部檢測任務中。 這些方法主要基于設計的特點,這些特點表現(xiàn)性差,經(jīng)過分離的步驟訓練。

近年來,卷積神經(jīng)互聯(lián)網(wǎng)( cnn )取得了很大的突破,基于cnn的現(xiàn)代目標檢測技術在人臉檢測方面取得了很大的進展。 例如,多虧了r-CNN(11、12、13、14 )、SSD )、Yolo(16 )、focalloss ) 17 )及其擴展產(chǎn)物強大的深度學習方法和端到端的優(yōu)化,cnn

現(xiàn)有的基于anchor的檢測框架,如wider face[ 18 ]所示,是以檢測不受控制的環(huán)境的非常規(guī)臉部為目的的。 ssh [ 19 ]和s3fd [ 20 ]為了在單一的神經(jīng)互聯(lián)網(wǎng)中檢測來自不同層的尺度不同的面孔,開發(fā)了尺度不變的互聯(lián)網(wǎng)。 面部r - fcn [ 21 ]利用位置敏感的平均池,對嵌入在得分圖中的響應進行重新加權,消除面部各部位不均勻分布的影響。 fan [ 22 ]提出了anchor級的觀察機制,通過強調臉部區(qū)域的特征來檢測被遮擋的臉部。

這些事業(yè)為設計anchor和相關互聯(lián)網(wǎng)檢測不同尺度的人臉提供了比較有效的方法,但利用上下文新聞進行人臉檢測還沒有得到足夠的重視,該問題在非常規(guī)人臉檢測中應發(fā)揮重要的意義。 很明顯,人臉不會單獨出現(xiàn)在現(xiàn)實世界中,肩膀和身體一般也一起出現(xiàn),特別是在分辨率低、模糊、由于外部遮擋而無法區(qū)別人臉紋理的情況下,提供了豐富的上下文相關資源。 與這個問題相比,我們提出了一種新的上下文輔助互聯(lián)網(wǎng)框架,完全利用上下文信號,具體步驟如下

首先,互聯(lián)網(wǎng)不僅要學習人的臉部特征,還必須學習頭和身體等上下文部分的特征。 為了實現(xiàn)這一點,需要添加標簽,并設計與之匹配的anchor。 在本任務中,我們利用半監(jiān)督處理方案生成臉部相關上下文部分的近似標簽,同時發(fā)明了一系列名為pyramidanchors的anchor,添加到基于anchor的常規(guī)架構中。

其次,高層次語境特征必須與低層次語境特征充分結合。 通常的臉和非常規(guī)則的臉的外觀可能有很大的不同。 這意味著并非所有的語義特征都有助于識別小臉。 我們將研究featurepyramidnetworks圖1:pyramid盒體系結構。 這包括可縮放主層、低級特征金字塔層( lfpn )、對上下文敏感的預測層和pyramidbox損耗層。的性能,將其水平改為低級別的feature pyramid network( lfpn ),結合相互有用的特征。

第三,預計分支互聯(lián)網(wǎng)應完全利用合作的特點。 為了將對象臉部周圍的語境新聞與更廣闊更深入的互聯(lián)網(wǎng)結合起來,我們引入了語境敏感預測模塊( cpm )。 另外,為了進一步提高分類互聯(lián)網(wǎng)的性能,提出了可以預測模塊的大輸入輸出層。

此外,提出了名為“數(shù)據(jù)-anchor-采樣”的培訓戰(zhàn)略,調整了培訓數(shù)據(jù)集的分布。 為了學習更具代表性的特征,非定型的面孔樣本的多樣化很重要,可以通過樣本間的數(shù)據(jù)擴展來獲得。

為了明確表達,本研究可以歸納為以下五點。

1 .本文提出一種基于anchor的語境支持方法pyramidanchors,從而引入有監(jiān)控的新聞,學習小、模糊、部分隱藏的人面部的語境特征。

2、我們設計了低級特征金字塔互聯(lián)網(wǎng)( lfpn ),更好地融合了語境特征和面部特征。 另外,這種做法在一次拍攝中可以很好地解決不同尺度的人的臉部。

3 .我們提出了一種由混合互聯(lián)網(wǎng)結構和大輸入輸出層組成的、對根據(jù)融合特征學習準確定位和分類的語境敏感的預測模型

4 .我們提出可以感知尺度的數(shù)據(jù)-anchor-采樣戰(zhàn)略,改變訓練樣本的分布,關注小臉。

5 .在通用人臉檢測標準fddb和wider face上,我們達到了目前的好水平。

3行星盒

3.1互聯(lián)網(wǎng)體系結構

基于anchor許多復雜anchor設計的目標檢測框架表明,當在不同級別的特征圖上執(zhí)行預測時,可以相對有效地解決可變尺度的面部。 另外,fpn結構表明融合上層的特征和下層的特征會帶來很大的特征。 pyramidbox (圖1 )的架構采用與s3FD )相同的擴展vgg16主干網(wǎng)架構和anchor尺度設計,可以生成與不同層次的特征圖等比的anchor。 低級的fpn被添加到這個骨干架構中,同時采用對上下文敏感的預測模塊作為各個pyramid檢測層的分支互聯(lián)網(wǎng)來獲得最終的輸出。 這個方法的關鍵是我們設計了新的pyramid anchor方法。 這可以為每個面部在不同的級別上生成一系列錨點。 架構中每個組件的詳細信息如下:

可縮放的骨干互聯(lián)網(wǎng)層。 我們采用s3fd基層和附加卷積層作為骨干互聯(lián)網(wǎng)層,其中保存從vgg16的conv 1_1層到pool 5層,然后將fc 6層和fc 7層轉換為conv fc層,增加越來越多的卷積層加深。

低級特征金字塔層。 為了提高人臉檢測器解決不同尺度人臉的能力,高分辨率的低級特征起著重要的作用。 因此,目前很多優(yōu)秀的研究[ 25,20,22,19 ]都是在同一幀內(nèi)構建不同的結構來檢測可變尺寸的面部。 其中,高級別的特征用于檢測尺寸大的臉部,低級的特征用于檢測尺寸小的臉部。 為了將高級特征整合為高分辨率的低級特征,fpn[23]提出了自上而下的框架,以利用所有尺度的高級語義特征圖。 最新的研究表明,fpn型框架在目標檢測和人臉檢測上都取得了相當好的性能。

通過自上而下的中間層結構,我們構建了低級別的特征金字塔互聯(lián)網(wǎng)( lfpn )。 其感受野不是頂級的一半,而是接近輸入大小。 另外,各lfpn塊的結構與fpn [23]相同,越來越多的新聞參見圖2(a )。

[23]

圖2(a )具有特色的金字塔互聯(lián)網(wǎng)。 ) b )對上下文敏感的預測模塊。 ( c )支付箱損失。

4實驗

表1 )從不同層開始的lfpn的表現(xiàn)。

表2:pyramidanchors的參數(shù)。

表3 :對上下文敏感的預測模塊。

表4:pyramidbox的wider face驗證子集的結果。

論文: pyramid box:a上下文輔助設計器

面部檢測研究從多年前就開始了,在不受控制的環(huán)境中檢測小、模糊和部分隱藏的面部仍然是一個需要處理的課題。 與棘手的人臉檢測問題相比,本文提出了一種上下文輔助的單一人臉檢測新方法pyramidbox。 考慮到語境的重要性,我們將從以下三個方面改進語境新聞的利用。 首先,我們設計了全新的語境anchor,用半監(jiān)督的方式監(jiān)督高級語境特征學習。 我們稱之為粒子加速器。 其次,我們提出了一種低層二級特征金字塔互聯(lián)網(wǎng),將足夠高級別的上下文語義特征和低級的人臉特征結合起來,使得pyramidbox能夠一次預測所有大小的人臉,而不會重復。 再次,我們引入了對語境敏感的結構,擴大了預測互聯(lián)網(wǎng)的容量,提高了最終的輸出精度。 此外,還使用“數(shù)據(jù)-anchor-采樣”的方法擴展了不同大小的訓練樣本,增加了小面孔訓練數(shù)據(jù)的多樣化。 pyramidbox完全利用語境的價值,在兩個常用的人臉檢測標準fddb和wider face上脫穎而出,取得了目前的優(yōu)勢水平。

標題:“世界權威評測冠軍:百度人臉檢測算法PyramidBox的背后”

地址:http://ppj58.cn//xwdt/41660.html