行业新闻

广告平移门人脸识别的历史与近展

2021-01-12 14:41 阅读次数:

       自动人脸识别的经典流程分为三个步骤:人脸识别、面部特征点定位(又称Face Alignment人脸对齐)、特征提取与分类器设计。普通而言,狭义的人脸识别指的是"特征提取+分类器"两局部的算法研讨。

       在深度学习呈现以前,人脸识别办法普通分为高维人工特征提取(例如:LBP, Gabor等)和降维两个步骤,代表性的降维办法有PCA, LDA等子空间学习办法和LPP等盛行学习办法。在深度学习办法盛行之后,代表性办法为从原始的图像空间直接学习判别性的人脸表示。

       普通而言,人脸识别的研讨历史能够分为三个阶段。在第一阶段(1950s-1980s),人脸识别被当作一个普通性的形式辨认问题,主流技术基于人脸的几何构造特征。在第二阶段(1990s)人脸识别疾速开展,呈现了很多经典的办法,例如Eigen Face, Fisher Face和弹性图匹配,此时主流的技术道路为人脸表观建模。在第三阶段(1990s末期到如今),人脸识别的研讨不时深化,研讨者开端关注面向真实条件的人脸识别问题,主要包括以下四个方面的研讨:1)提出不同的人脸空间模型,包括以线性判别剖析为代表的线性建模办法,以Kernel办法为代表的非线性建模办法和基于3D信息的3D人脸识别办法。2)深化剖析和研讨影响人脸识别的要素,包括光照不变人脸识别、姿势不变人脸识别和表情不变人脸识别等。3)应用新的特征表示,包括部分描绘子(Gabor Face, LBP Face等)和深度学习办法。4)应用新的数据源,例如基于视频的人脸识别和基于素描、近红外图像的人脸识别。

       2007年以来,LFW数据库成为事实上的真实条件下的人脸识别问题的测试基准。LFW数据集包括来源于因特网的5,749人的13,233张人脸图像,其中有1680人有两张或以上的图像。LFW的规范测试协议包括6000对人脸的十折确认任务,每折包括300对正例和300对反例,采用十折均匀精度作为性能评价指标。

       自从LFW发布以来,性能被不时刷新。2013年之前,主要技术道路为人造或基于学习的部分描绘子+测度学习。2014年之后,主要技术道路为深度学习。

       2014年以来,深度学习+大数据(海量的有标注人脸数据)成为人脸识别范畴的主流技术道路,其中两个重要的趋向为:1)网络变大变深(VGGFace16层,FaceNet22层)。2)数据量不时增大(DeepFace 400万,FaceNet2亿),大数据成为提升人脸识别性能的关键。

       在前DL时期,以VIPL实验室三代半SDK为例,关键技术点包括1)分块人脸特征交融:Gabor特征+LPQ特征。 2)子空间学习停止特征降(PCA+LDA)。3)交融多尺度的人脸归一化模板。SDK3.5的相关技术在FRGC实验4上获得了0.1%错误承受率条件下96%确实认率,至今仍然是FRGC数据集上最好结果。

       需求指出的是,固然深度学习强调特征学习,但学习特征并不是DL的专利。在前DL时期,应用浅层模型从图像中直接学习表示和基于人造描绘子学习语义表示(例如学习中层属性表示的Attributes and Simile Classifier和学习高层语义表示的Tom-vs-Pete)的工作都见于相关文献。

       2014年,Facebook发表于CVPR14的工作DeepFace将大数据(400万人脸数据)与深度卷积网络相分离,在LFW数据集上迫近了人类的辨认精度。其中DeepFace还引入了一个Local Connected卷积构造,在每个空间位置学习单独的卷积核,缺陷是会招致参数收缩,这个构造后来并没有盛行起来。 

       DeepID家族能够看作是DL时期人脸辨认范畴的一组代表性工作。最早的DeepID网络包括四个卷积层,采用softmax损失函数。DeepID2在DeepID网络的根底上,同时思索了分类损失(identity loss) 和确认损失(verification loss), 这两种损失在Caffe深度学习框架中分别能够采用softmaxwithloss层和contrastive loss层来完成。DeepID2+网络则是在DeepID2的根底上,增加了每一层的辅助损失函数(相似Deep Supervised Network)。

       Google发表于CVPR2015的工作FaceNet采用了22层的深层卷积网络和海量的人脸数据(800万人的2亿张图像)以及常用于图像检索任务的Triplet Loss损失函数。值得一提的是,由于人脸类别数到达800万类,假如运用softmax loss,输出层节点将到达800万个,需求至少32GB显存(假定上一个隐层节点1024个,采用单精度浮点数),而Triplet Loss则不需求额外占用显存。FaceNet在LFW数据集上十折均匀精度到达99.63%,这也是迄今为止正式发表的论文中的最好结果,简直宣布了LFW上从2008年到2015年长达8年之久的性能竞赛的完毕。