人臉識別原理與模型方法綜述
一、人臉識別流程
圖一、人臉識別流程圖
二、優點特性
1、便捷性
采集設備簡單,使用快捷。一般來說,常見的攝像頭就可以用來進行人臉圖像的采集, 不需特別復雜的專用設備。圖像采集在數秒內即可完成。
2、友好性
通過人臉識別身份的方法與人類的習慣一致,人和機器都可以使用人臉圖片進行識別。而指紋,虹膜等方法沒有這個特點,一個沒有經過特殊訓練的人,無法利用指紋和虹膜圖像對其他人進行身份識別。
3、非接觸性
人臉圖像信息的采集不同于指紋信息的采集,利用指紋采集信息需要用手指接觸到采集設備,既不衛生,也容易引起使用者的反感,而人臉圖像采集,用戶不需要與設備直接接觸。
4、可擴展性
在人臉識別后,下一步數據的處理和應用,決定著人臉識別設備的實際應用,如應用在出入門禁控制、人臉圖片搜索、上下班刷卡、恐怖分子識別等各個領域,可擴展性強。
三、影響因素
1. 分辨率(大小):最佳分辨率到最小分辨率(臨界分辨率)之間最穩定
2. 清晰度
3. 光照環境
4. 模糊程度
5. 遮擋程度
6. 采集角度
四、人臉識別技術流程
人臉識別技術原理簡單來講主要是三大步驟:
1、建立一個包含大批量人臉圖像的數據庫,來源:自傳照片、身份證讀卡器、公安人臉比對接(已關閉);
2、通過各種方式來獲得當前要進行識別的目標人臉圖像;
3、將目標人臉圖像與數據庫中既有的人臉圖像進行比對和篩選。
根據人臉識別技術原理具體實施起來的技術流程則主要包含以下四個部分,即:人臉圖像的采集與預處理、人臉檢測、人臉特征提取、人臉識別和活體鑒別。
1、人臉圖像的采集與預處理
(1)人臉圖像的采集:
采集人臉圖像通常情況下有兩種途徑,分別是既有人臉圖像的批量導入和人臉圖像的實時采集
(2)人臉圖像的預處理:
人臉圖像的預處理的目的是在系統對人臉圖像的檢測基礎之上,對人臉圖像做出進一步的處理,即灰度調整、圖像濾波、圖像尺寸歸一化等,以利于人臉圖像的特征提取。人臉圖像的預處理具體而言是指對系統采集到的人臉圖像進行光線、旋轉、切割、過濾、降噪、放大縮小等一系列的復雜處理過程來使得該人臉圖像無論是從光線、角度、距離、大小等任何方面來看均能夠符合人臉圖像的特征提取的標準要求。
基于人臉檢測結果,對圖像進行處理并最終服務于特征提取的過程。系統獲取的原始圖像由于受到各種條件的限制和隨機干擾,往往不能直接使用,必須在圖像處理的早期階段對它進行灰度矯正、噪聲過濾等圖像預處理。
預處理過程:
1)人臉對準(得到人臉位置端正的圖像);
2)人臉圖像的光線補償,灰度變換、直方圖均衡化、歸一 化(取得尺寸一致,灰度取值范圍相同的標準化人臉圖像);
3)幾何校正、中值濾波(圖片的平滑操作以消除噪聲)以及銳化等。
2、人臉檢測
在圖像中準確標定出人臉的位置和大小,并把其中有用的信息挑出來(如直方圖特征、顏色特征、模板特征、結構特征及Haar特征等),然后利用信息來達到人臉檢測的目的。
人臉關鍵點檢測(人臉對齊):自動估計人臉圖片上臉部特征點的坐標。
一張包含人臉圖像的圖片通常情況下可能還會包含其他內容,這時候就需要進行必要的人臉檢測。也就是在一張人臉圖像之中,系統會精準的定位出人臉的位置和大小,在挑選出有用的圖像信息的同時自動剔除掉其他多余的圖像信息來進一步的保證人臉圖像的精準采集。人臉檢測是一個具有挑戰性的目標檢測問題,主要體現在兩方面:
(1)人臉目標內在的變化引起:
1)人臉具有相當復雜的細節變化和不同的表情(眼、嘴的開與閉等);
2)不同的人臉具有不同的外貌,如臉形、膚色等;
3)人臉的遮擋,如眼鏡、頭發和頭部飾物等。
(2)外在條件變化引起:
1)由于成像角度的不同造成人臉的多姿態,如平面內旋轉、深度旋轉以及上下旋轉等,其中深度旋轉影響較大;
2)光照的影響,如圖像中的亮度、對比度的變化和陰影等;
3)圖像的成像條件,如攝像設備的焦距、成像距離等。
人臉檢測重點關注以下指標:
(1)檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,檢測模型效果越好;
(2)誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,檢測模型效果越好;
(3)漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,檢測模型效果越好;
(4)速度:從采集圖像完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。
目前的人臉檢測方法可分為三類,分別是基于膚色模型的檢測、基于邊緣特征的檢測、基于統計理論方法,
(1)基于膚色模型的檢測:
膚色用于人臉檢測時,可采用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數估計等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進行人臉檢測。通過提取彩色圖像中的面部區域以實現人臉檢測的方法能夠處理多種光照的情況, 但該算法需要在固定攝像機參數的前提下才有效。Comaniciu 等學者利用非參數的核函數概率密度估計法來建立膚色模型,并使用 mean-shift 方法進行局部搜索實現了人臉的檢測和跟蹤。這一方法提高了人臉的檢測速度,對于遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結合性不是很高,同時,用于人臉檢測時,處理復雜背景和多個人臉時存在困難。為了解決人臉檢測中的光照問題,可以針對不同光照進行補償,然后再檢測圖像中的膚色區域。這樣可以解決彩色圖像中偏光、背景復雜和多個人臉的檢測問題,但對人臉色彩、位置、尺度、旋轉、姿態和表情等具有不敏感性。
(2)基于邊緣特征的檢測:
利用圖像的邊緣特征檢測人臉時,計算量相對較小,可以實現實時檢測。大多數使用邊緣特征的算法都是基于人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進行匹配。也有研究者采用橢圓環模型與邊緣方向特征,實現簡單背景的人臉檢測。Fr?ba 等采用基于邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進行人臉檢測。該算法在復雜背景下誤檢率比較高,但是與其他的特征相融合后可以獲得很好的效果。
(3)基于統計理論方法:
本文重點介紹基于統計理論方法中的Adaboost人臉檢測算法。Adaboost算法是通過無數次循環迭代來尋求最優分類器的過程。基于檢測出的特征采用Adaboost學習算法(一種用來分類的方法,它把一些比較弱的分類方法合在一起,組合出新的很強的分類方法)挑選出一些最能代表人臉的矩形特征(弱分類器),按照加權投票的方式將弱分類器構造為一個強分類器,再將訓練得到的若干強分類器串聯組成一個級聯結構的層疊分類器,有效地提高分類器的檢測速度。用弱分類器Haar特征中任一特征放在人臉樣本上,求出人臉特征值,通過更多分類器的級聯便得到人臉的量化特征,以此來區分人臉和非人臉。Haar功能由一些簡單黑色白色水平垂直或旋轉45°的矩形組成。目前的Haar特征總的來說廣義地分為三類:邊緣特征、線特征以及中心特征。
(4)其他框架:
viola-jones框架(性能一般速度尚可,適合移動端、嵌入式上使用)、dpm(速度較慢)、CNN(性能不錯)
3、人臉特征提取
人臉識別系統可使用的特征通常分為視覺特征、像素統計特征、人臉圖像變換系數特征、人臉圖像代數特征等。人臉特征提取就是針對人臉的某些特征進行的,也稱人臉表征,它是對人臉進行特征建模的過程。
方法:
(1)基于知識的表征方法(主要包括基于幾何特征法和模板匹配法):
根據人臉器官的形狀描述以及它們之間的距離特性來獲得有助于人臉分類的特征數據,其特征分量通常包括特征點間的歐氏距離、曲率、和角度等。人臉由眼睛、鼻子、嘴、下巴等局部構成,對這些局部和他們之間結構關系的幾何描述,可作為識別人臉的重要特征,這些特征被稱為幾何特征。
(2)基于代數特征或統計學習的表征方法:
基于代數特征方法的基本思想是將人臉在空域內的高維描述轉化為頻域或者其他空間內的低維描述,其表征方法為線性投影表征方法和非線性投影表征方法。基于線性投影的方法主要有主成分分析法或稱K-L變化、獨立成分分析法和Fisher線性判別分析法。非線性特征提取方法有兩個重要的分支:基于核的特征提取技術和以流形學習為主導的特征提取技術。
4、匹配與識別:
提取的人臉特征值數據與數據庫中存貯的特征模板進行搜索匹配,通過設定一個閾值,將相似度與這一閾值進行比較,來對人臉的身份信息進行判斷。目前主要有幾種研究的方向,如:
(1)基于人臉特征統計學的識別方法
特征臉的方法是一種比較經典而又應用比較廣的人臉識別方法,其主要原理是把圖像做降維算法,使得數據的處理更容易,同時,速度又比較快。特征臉的人臉識別方法,實際上是將圖像做 Karhunen-Loeve 變換,把一個高維的向量轉化為低維的向量,從而消除每個分量存在的關聯性,使得變換得到的圖像與之對應特征值遞減。在圖像經過 K-L 變換后,其具有很好的位移不變性和穩定性。所以,特征臉的人臉識別方法具有方便實現,并且可以做到速度更快,以及對正面人臉圖像的識別率相當高等優點。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態和光照改變等因素的影響,從而導致識別率低的情況。其主要有特征臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;
1)Eigen Face(特征臉)
MIT實驗室的特克(Turk)和潘特(Pentland)提出的“特征臉”方法第一次將主成分分析和統計特征技術引入人臉識別,在實用效果上取得了長足的進步。征臉技術是近期發展起來的用于人臉或者一般性剛體識別以及其它涉及到人臉處理的一種方法。使用特征臉進行人臉識別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),并由 Matthew Turk 和 Alex Pentland 用于人臉分類(《Eigenfaces for recognition》)。首先把一批人臉圖像轉換成一個特征向量集,稱為“Eigenfaces”,即“特征臉”,它們是最初訓練圖像集的基本組件。識別的過程是把一副新的圖像投影到特征臉子空間,并通過它的投影點在子空間的位置以及投影線的長度來進行判定和識別。
將圖像變換到另一個空間后,同一個類別的圖像會聚到一起,不同類別的圖像會聚力比較遠,在原像素空間中不同類別的圖像在分布上很難用簡單的線或者面切分,變換到另一個空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分布的主要成分,具體實現是對訓練集中所有人臉圖像的協方差矩陣進行本征值分解,得到對應的本征向量,這些本征向量就是“特征臉”。每個特征向量或者特征臉相當于捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個人臉都可以表示為這些特征臉的線性組合。其后的很多人臉識別技術都或多或少與特征臉有關系,現在特征臉已經與歸一化的協相關量(Normalized Correlation)方法一道成為人臉識別的性能測試基準算法。
2)局部二值模式(Local Binary Patterns,LBP)
局部二值模式(Local Binary Patterns LBP)是計算機視覺領域里用于分類的視覺算子。LBP 一種用來描述圖像紋理特征的算子,該算子由芬蘭奧盧大學的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發表了一篇關于 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉不變、等價模式的改進的 LBP 特征。LBP 的核心思想就是:以中心像素的灰度值作為閾值,與他的領域相比較得到相對應的二進制碼來表示局部紋理特征。
LBP 是提取局部特征作為判別依據的。LBP 方法顯著的優點是對光照不敏感,但是依然沒有解決姿態和表情的問題。不過相比于特征臉方法,LBP 的識別率已經有了很大的提升。
3)Fisher Face(漁夫臉):
線性鑒別分析在降維的同時考慮類別信息,由統計學家 Sir R. A. Fisher1936 年發明(《The use of multiple measurements in taxonomic problems》)。為了找到一種特征組合方式,達到最大的類間離散度和最小的類內離散度。這個想法很簡單:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別盡量距離越遠。1997 年,Belhumer 成功將 Fisher 判別準則應用于人臉分類,提出了基于線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。該方法首先采用主成分分析(PCA)對圖像表觀特征進行降維。在此基礎上,采用線性判別分析(LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內散度”。該方法目前仍然是主流的人臉識別方法之一,產生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的LDA 判別方法以及近期的一些基于核學習的改進策略。
(2)基于幾何特征的方法
幾何特征可以是眼、鼻、嘴等的形狀和它們之間的幾何關系(如相互之間的距離),利用了人臉的幾何結構,通過分析人臉器官特征點及其之間的拓撲關系進行辨識。這些算法簡單直觀,識別速度快,需要的內存小,但一旦人臉姿態、表情發生變化,精度則嚴重下降,識別率較低。
基于幾何特征識別的流程大體如下:
1)首先對人臉面部的各個特征點及其位置進行檢測, 如鼻子、嘴巴和眼睛等位置;
2)然后計算這些特征之間的距離,得到可以表達每個特征臉的矢量特征信息,例如眼睛的位置,眉毛的長度等;
3)其次還計算每個特征與之相對應關系,與人臉數據庫中已知人臉對應特征信息來做比較;
4)最后得出最佳的匹配人臉。
基于幾何特征的方法符合人們對人臉特征的認識,另外,每幅人臉只存儲一個特征,所以占用的空間比較小;同時,這種方法對光照引起的變化并不會降低其識別率,而且特征模板的匹配和識別率比較高。但是,基于幾何特征的方法也存在著魯棒性不好,一旦表情和姿態稍微變化,識別效果將大打折扣。
(3)基于線段Hausdorff 距離(LHD) 的方法
心理學的研究表明,人類在識別輪廓圖(比如漫畫)的速度和準確度上絲毫不比識別灰度圖差。LHD是基于從人臉灰度圖像中提取出來的線段圖的,它定義的是兩個線段集之間的距離,與眾不同的是,LHD并不建立不同線段集之間線段的一一對應關系,因此它更能適應線段圖之間的微小變化。實驗結果表明,LHD在不同光照條件下和不同姿態情況下都有非常出色的表現,但是它在大表情的情況下識別效果不好。流程如下:
1)人臉圖像預處理:對齊、尺寸、亮度和對比度歸一化
2)Canny算子提取人臉邊緣圖
3)去除邊緣線條中的裂縫
4)設置閾值去除噪音線
5)在LEM中結合ASM得到人臉對準結果,消除了頭發和背景的影響
6)增加重要部分地權重
7)提出線段領域的概念,保持識別率并提升識別速度
(4)基于連接機制
主要有人工神經網絡(ANN,Artificial Neural Network)方法和支持向量機(SVM,Support Vector Machine)方法等。
1)EGM(彈性圖匹配):
其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特征點,其屬性為相應特征點處的多分辨率、多方向局部特征——Gabor變換12特征,稱為Jet;邊的屬性則為不同特征點之間的幾何關系。對任意輸入人臉圖像,彈性圖匹配通過一種優化搜索策略來定位預先定義的若干面部關鍵特征點,同時提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優點是既保留了面部的全局結構特征,也對人臉的關鍵局部特征進行了建模。
2)基于神經網絡的方法
神經網絡的輸入可以是降低分辨率的人臉圖像、局部區域的自相關函數、局部紋理的二階矩等。這類方法同樣需要較多的樣本進行訓練,而在許多應用中,樣本數量是很有限的。
3)基于深度學習的方法
深度學習得到的人臉特征表達具有手工特征表達所不具備的重要特性,例如它是中度稀疏的、對人臉身份和人臉屬性有很強的選擇性、對局部遮擋具有良好的魯棒性。這些特性是通過大數據訓練自然得到的,并未對模型加入顯式約束或后期處理,這也是深度學習能成功應用在人臉識別中的主要原因。
深度學習在人臉識別上有 7 個方面的典型應用:基于卷積神經網絡(CNN)的人臉識別方法,深度非線性人臉形狀提取方法,基于深度學習的人臉姿態魯棒性建模,有約束環境中的全自動人臉識別,基于深度學習的視頻監控下的人臉識別,基于深度學習的低分辨率人臉識別及其他基于深度學習的人臉相關信息的識別。
其中,卷積神經網絡(Convolutional Neural Networks,CNN)是第一個真正成功訓練多層網絡結構的學習算法,基于卷積神經網絡的人臉識別方法是一種深度的監督學習下的機器學習模型,能挖掘數據局部特征,提取全局訓練特征和分類,其權值共享結構網絡使之更類似于生物神經網絡,在模式識別各個領域都得到成功應用。CNN 通過結合人臉圖像空間的局部感知區域、共享權重、在空間或時間上的降采樣來充分利用數據本身包含的局部性等特征,優化模型結構,保證一定的位移不變性。
4)基于支持向量機(SVM) 的方法
近年來,支持向量機是統計模式識別領域的一個新的熱點,它試圖使得學習機在經驗風險和泛化能力上達到一種妥協,從而提高學習機的性能。支持向量機主要解決的是一個2分類問題,它的基本思想是試圖把一個低維的線性不可分的問題轉化成一個高維的線性可分的問題。通常的實驗結果表明SVM有較好的識別率,但是它需要大量的訓練樣本(每類300個),這在實際應用中往往是不現實的。而且支持向量機訓練時間長,方法實現復雜,該函數的取法沒有統一的理論。
基于遺傳算法、支持向量機(Support Vector Machine,SVM)、boosting、流形學習以及核方法等進行人臉識別。2009 年至 2012 年,稀疏表達(Sparse Representation)因為其優美的理論和對遮擋因素的魯棒性成為當時的研究熱點。與此同時,業界也基本達成共識:基于人工精心設計的局部描述子進行特征提取和子空間方法進行特征選擇能夠取得最好的識別效果。
5)綜合多種識別方式的方法
以上幾種比較常用的人臉識別方法,我們不難看出,每一種識別方法都不能做到完美的識別率與更快的識別速度,都有著各自的優點和缺點,因此,現在許多研究人員則更喜歡使用多種識別方法綜合起來應用,取各種識別方法的優勢,綜合運用,以達到更高的識別率和識別效果。
5、活體鑒別
生物特征識別的共同問題之一就是要區別該信號是否來自于真正的生物體,比如,指紋識別系統需要區別帶識別的指紋是來自于人的手指還是指紋手套,人臉識別系統所采集到的人臉圖像,是來自于真實的人臉還是含有人臉的照片。因此,實際的人臉識別系統一般需要增加活體鑒別環節,例如,要求人左右轉頭,眨眼睛,開開口說句話等。
五、經典論文
1、Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱為 Eigenpictures 的坐標系統來表示。Eigenpictures 是面部集合的平均協方差的本征函數。
2、Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發了一種近實時的計算機系統,可以定位和追蹤人的頭部,然后通過比較面部特征和已知個體的特征來識別該人。該方法將面部識別問題視為二維識別問題。識別的過程是把一副新的圖像投影到特征臉子空間,該特征空間捕捉到已知面部圖像之間的顯著變化。重要特征稱為特征臉,因為它們是面集的特征向量。
3、Ojala,T.,Pietik?inen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對不同的圖形紋理進行比較,并提出了用來描述圖像紋理特征的 LBP 算子。
4、Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡單而有效的灰度和旋轉不變紋理分類方法,該方法基于局部二值模式和樣本和原型分布的非參數判別。該方法具有灰度變化穩健、計算簡單的特點。
5、Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特征組合方式,以達到最大的類間離散度和最小的類內離散度。解決方式為:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別盡量距離越遠。
6、Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces
vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基于 Fisher 的線性判別進行面部投影,能夠在低維子空間中產生良好分離的類,即使在光照和面部表情的變化較大情況下也是如此。廣泛的實驗結果表明, 所提出的“Fisherface”方法的誤差率低于哈佛和耶魯人臉數據庫測試的特征臉技術。
六、人臉識別數據庫
1、ERET人臉數據庫
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 項目創建,此圖像集包含大量的人臉圖像,并且每幅圖中均只有一個人臉。該集中,同一個人的照片有不同表情、光照、姿態和年齡的變化。包含 1 萬多張多姿態和光照的人臉圖像,是人臉識別領域應用最廣泛的人臉數據庫之一。其中的多數人是西方人,每個人所包含的人臉圖像的變化比較單一。
2、Yale人臉數據庫
3、ORL人臉數據庫
4、CMU Multi- PIE人臉數據庫
http://www.flintbox.com/public/project/4742/
由美國卡耐基梅隆大學建立。所謂“PIE”就是姿態(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉數據庫是在 CMU-PIE 人臉數據庫的基礎上發展起來的。包含 337 位志愿者的 75000 多張多姿態,光照和表情的面部圖像。其中的姿態和光照變化圖像也是在嚴格控制的條件下采集的,目前已經逐漸成為人臉識別領域的一個重要的測試集合。
5、YALE人臉數據庫(美國,耶魯大學)
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶魯大學計算視覺與控制中心創建,包含 15 位志愿者的 165 張圖片,包含光照、表情和姿態的變化。
6、YALE人臉數據庫 B
https://computervisiononline.com/dataset/1105138686
包含了 10 個人的 5850 幅在 9 種姿態,64 種光照條件下的圖像。其中的姿態和光照變化的圖像都是在嚴格控制的條件下采集的,主要用于光照和姿態問題的建模與分析。由于采集人數較少,該數據庫的進一步應用受到了比較大的限制。
7、ORL人臉數據庫
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英國劍橋大學 AT&T 實驗室創建,包含 40 人共 400 張面部圖像,部分志愿者的圖像包括了姿態,表情和面部飾物的變化。該人臉庫在人臉識別研究的早期經常被人們采用,但由于變化模式較少,多數系統的識別率均可以達到 90%以上,因此進一步利用的價值已經不大。
ORL 人臉數據庫中一個采集對象的全部樣本庫中每個采集對象包含10 幅經過歸一化處理的灰度圖像,圖像尺寸均為 92×112 ,圖像背景為黑色。其中采集對象的面部表情和細節均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態也有變化,其深度旋轉和平面旋轉可達 20 度。
8、BioID人臉數據庫
https://www.bioid.com/facedb/
包含在各種光照和復雜背景下的 1521 張灰度面部圖像,眼睛位置已經被手工標注。
9、UMIST圖像集
由英國曼徹斯特大學建立。包括 20 個人共 564 幅圖像,每個人具有不同角度、不同姿態的多幅圖像。
10、Yale 人臉數據庫中一個采集志愿者的 10 張樣本,相比較 ORL 人臉數據庫 Yale 庫中每個對象采集的樣本包含更明顯的光照、表情和姿態以及遮擋變化。
11、FERET人臉數據庫
12、年齡識別數據集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 張從 IMDB 和 Wikipedia 爬取的名人數據圖片。應用了一個新穎的化回歸為分類的年齡算法。本質就是在 0-100 之間的 101 類分類后,對于得到的分數和 0-100 相乘, 并將最終結果求和,得到最終識別的年齡。
13、MIT數據庫
14、BANCA人臉數據庫
15、CAS-PEAL人臉數據庫
16、JAFE表情數據庫
17、Cohn-Kanade表情數據庫
18、MMI表情數據庫
七、技術發展方向
人臉自動識別技術已取得了巨大的成就,隨著科技的發展,在實際應用中仍然面臨困難,不僅要達到準確、快速的檢測并分割出人臉部分,而且要有效的變化補償、特征描述、準確的分類的效果,還需要注重和提高以下幾個方面:
1、結合三維信息:二維和三維信息融合使特征更加魯棒
2、多特征融合:單一特征難以應對復雜的光照和姿態變化
3、大規模人臉比對:面向海量數據的人臉比對與搜索
4、深度學習:在大數據條件下充分發揮深度神經網絡強大的學習能力
5、人臉的局部和整體信息的相互結合能有效地描述人臉的特征,基于混合模型的方法值得進一步深入研究,以便能準確描述復雜的人臉模式分布。
6、多特征融合和多分類器融合的方法也是改善識別性能的一個手段。
7、由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響 ,準確的人臉識別仍較困難。為了滿足自動人臉識別技術具有實時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術的融合方法。
8、3D形變模型可以處理多種變化因素,具有很好的發展前景。已有研究也表明,對各種變化因素采用模擬或補償的方法具有較好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統識別算法的基礎上改進和創新。
9、表面紋理識別算法是一種最新的算法 [52],有待于我們繼續學習和研究出更好的方法。
總之,人臉識別是極富挑戰性的課題僅僅采用一種現有方法難以取得良好的識別效果,如何與其它技術相結合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實現,如何實用化都是將來值得研究的。
八、技術指標
1、人臉檢測中的關鍵指標:例子:在攝像頭某張抓拍圖像中,一共有100張人臉,算法檢測出80張人臉,其中75張是真實人臉,5 張是把路標誤識為人臉。
(1)檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,代表檢測模型效果越好。
(2)誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,代表檢測模型效果越好。
(3)漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,代表檢測模型效果越好。
(4)速度:從采集圖像完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。
在這個實際案例中:檢測率=75/100 誤檢率=5/80 漏檢率=(100-75)/100
2、人臉識別中的關鍵指標:1000張樣本圖片里,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數量確很少,只有99/600。這樣很容易發生漏識的情況。
(1)精確率(precision):識別為正確的樣本數/識別出來的樣本數=99/100
(2)召回率(recall):識別為正確的樣本數/所有樣本中正確的數=99/600
(3)錯誤接受率/認假率/誤識率(FAR,False Accept Rate):
定義:指將身份不同的兩張照片,判別為相同身份,越低越好
FAR = NFA / NIRA
式中 NIRA 代表的是類間測試次數,既不同類別間的測試次數,打比方如果有1000個識別 模型,有1000個人要識別,而且每人只提供一個待識別的素材,那 NIRA=1000*(1000-1) 。NFA是錯誤接受次數。
(4)錯誤拒絕率/拒真率/拒識率(FRR, False Reject Rate):
定義:指將身份相同的兩張照片,判別為不同身份,越低越好
FRR = NFR / NGRA
上式中NFR是類內測試次數,既同類別內的測試次數,打比方如果有1000個識別模型, 有1000個人要識別, 而且每人只提供一個待識別的素 材,那 NIRA=1000,如果每個人提供N張圖片,那么 NIRA=N*1000 。NFR是錯誤拒絕次數。
FAR決定了系統的安全性,FRR決定了系統的易用程度,在實際中,FAR對應的風險遠遠高于FRR,因此,生物識別系統中,會將FAR設置為一個非常低的范圍,如萬分之一甚至百萬分之一,在FAR固定的條件下,FRR低于5%,這樣的系統才有實用價值。
九、存在的問題:
1、信息泄露
2、1:N檢索或同時作業N:N檢索
3、動態抓取
4、性別模糊
5、年齡變化
6、信息孤島
7、光照、姿態、遮擋
8、相似性
9、圖片質量問題
十、訓練測試相關問題
1、欠擬合
定義:模型沒有很好地捕捉到數據特征,不能夠很好地擬合數據
解決方法:
(1)添加其他特征項,有時候我們模型出現欠擬合的時候是因為特征項不夠導致的,可以添加其他特征項來很好地解決。例如,“組合”、“泛化”、“相關性”三類特征是特征添加的重要手段,無論在什么場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。
(2)添加多項式特征,這個在機器學習算法里面用的很普遍,例如將線性模型通過添加二次項或者三次項使模型泛化能力更強。例如上面的圖片的例子。
(3)減少正則化參數,正則化的目的是用來防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化參數。
(4)嘗試非線性模型,比如核SVM 、決策樹、DNN等模型。
2、過擬合
定義:模型把數據學習的太徹底,以至于把噪聲數據的特征也學習到了,這樣就會導致在后期測試的時候不能夠很好地識別數據,即不能正確的分類,模型泛化能力太差。例如下面的例子。
解決方法:
(1)從產品角度
1)重新清洗數據,導致過擬合的一個原因也有可能是數據不純導致的,噪音太多影響到模型效果,如果出現了過擬合就需要我們重新清洗數據。
2)增大數據的訓練量,還有一個原因就是我們用于訓練的數據量太小導致的,訓練數據占總數據的比例過小。
(2)從算法角度
1)交叉檢驗,通過交叉檢驗得到較優的模型參數;
2)特征選擇,減少特征數或使用較少的特征組合,對于按區間離散化的特征,增大劃分的區間;
3)正則化,常用的有 L1、L2 正則。而且 L1正則還可以自動進行特征選擇;
4)如果有正則項則可以考慮增大正則項參數 lambda;
5)增加訓練數據可以有限的避免過擬合;
6)Bagging ,將多個弱學習器Bagging 一下效果會好很多,比如隨機森林等.
7)標注流程中遇到的問題