欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

FR三维面部识别技术应用上的定量分析

程序员文章站 2022-04-01 21:20:49
    摘要:两维(2D)面部识别传统上是一种具有吸引力的生物统计学技术,但是2D面部识别(FR)的准确性在检查和识别很多人时性能有限而且不够用,而且2D...


    摘要:两维(2D)面部识别传统上是一种具有吸引力的生物统计学技术,但是2D面部识别(FR)的准确性在检查和识别很多人时性能有限而且不够用,而且2D面部可能展现若干外表。为了解决限制2D FR技术的许多问题,研究人员在开始重点关注3D FR技术。

本文对Sandia国家实验室正在开发的一套3D FR系统进行分析。本研究包括使用单一调查数据库(每一对象一次正确比对)对200名对象进行验证(一对一)比对,以及对30名对象进行识别比对。该系统用探测概率(Pd)和误纳概率(FAR)进行评估。所提供的结果将帮助初步理解3D FR的性能。

引言

    FR是一种能够可靠识别个人的具有吸引力的生物统计学技术,因为它具有非入侵性质、容易与现有系统集成、而且能够在一定距离外对不合作对象进行识别。这些特点使这一技术十分适合在边境、机场和保密设施等地点检查个人。但是,当前在FR领域的大多数努力都使用2D面部描述,因此尽管已经取得很大进步,系统在碰到面部姿势和现场照明变化时性能仍要大打折扣。此外,在需要检查大量数目的人员时,正确识别就越加困难。3D FR有可能处理其中的一些问题,目前正在实验室和商业环境进行开发。有关研究全面分析了3D FR的实验室研究,此外还讨论了某些商业系统。

本文介绍的研究工作包括初步理解与FR使用3D数据有关的基本优缺点。介绍了被认为对数据组之间的不一致具有鲁棒性的基于豪斯多夫的算法来执行面部比对。这一系统验证冒名顶替者的场景和识别场景的初步结果。另外,在面部点的数目减少时对系统进行了分析,以便更好地理解系统对空间分辨率的鲁棒性。

 

面部识别问题

  目前的FR技术主要是2D技术,以及借以利用3D信息来获得更高精度并处理更复杂的照明和面部旋转问题的初步工作。虽然初步工作看来很有前途,但是需要更多工作来真正理解各种设置下的3D FR性能,并确定当前的传感器技术是否足够可靠、准确和灵活,是否能够在各种调协下提供比2D技术更多的优点。

2D系统

  尽管2D系统过去十年取得很大进步,但是仍然需要进行更多的工作。大多数生物统计学专家都认为,FR在提供正视图的情况下验证性能相当好,但是需要进一步的研究投资来改进识别(一对多)性能和对弱控制对象的监视名单任务。2002年面部识别厂家测试(FRVT)评估表明,当前的FR系统不容易在大规模系统中进行大规模部署。事实上已经有人指出,“FRVT2002的结果提出的问题比回答的更多。”在有较大的面部旋转、检索大数据库(也就是数据库容量加倍导致探测概率降低2~3%)、以及使用超过50人监视名单进行监视名单比对时,这一测试中的最佳产品仍然表现出重大的性能降低。

使用2D系统的基本问题是它们不是根据面部的实际尺寸采集数据。换句话说,面部的尺寸是面部与摄像机距离的函数,因而在较大距离处的较大面部看起来与在较小距离处的较小面部一样大。因此,所有的2D系统(无论它们使用本征面部,还是使用本地特征分析、神经网络等)都必须先对它们的面部表示进行规范化(也就是对每一面部进行标准化,以便它们具有同样尺寸、处于同样位置和方向)才能进行面部编码(也就是特征提取、PCA等)和比对。为解决这一FR问题,需要有2D图像没有的更多信息。我们认为除了外表数据外,使用3D面部几何信息能够提供解决2D系统这一难题的必要信息。例如,可以用3D信息准确地评估和校正面部姿态。另外,由于面部的实际尺寸是已知的,不一定进行改变相对面部尺寸信息的面部规范化。此外,面部的结构信息编码应该为实现在数据库和监视名单的良好性能提供必要的数据辨别。

3D系统

  尽管3D可望提供相对2D技术的优点,但是在设计算法时仍然要特别考虑另外一些传感器问题。比对面部数据时的一个问题涉及随不同时间采集的3D数据之间的差异。对于2D和3D数据集来说,上述变化可能是由于面部表情、发型和面部旋转变化等引起的。这意味着3D算法必须对数据集之间的差异鲁棒。甚至面部周围的不必要物体(例如头发、衣服和被遮蔽的物体)可以被从面部适当分割的情况下也要坚持这一原则,因为在面部方向改变时,面部的不同部位也将变得可见,而其他一些部位将被遮蔽。另外一个问题涉及理解由于传感器失误和噪扰特性而导致的不正确或丢失的数据区域。在许多情况下,补偿这些数据误差可能比强调所用的识别算法更加重要。本文介绍的算法对于这些类型的问题可望是鲁棒的。

面部分割

对于许多FR系统来说第一步都是探测面部。对于2D图像已经开发了许多面部探测算法,包括特征分析、线性子空间方法如主要部位分析(PCA)、神经网络、统计方法、可变形模板和彩色空间方法等。我们初期的面部分割方法是给面部施加一个3D面罩,中心位于某一可靠的面部特征位置。对于所介绍的这些结果,通过确定2D图像(将Z坐标编码为强度)内的峰值使用鼻子作为面部关注区域。在所分析的数据集中,包含单独对象的每一图像使这一方法对所分析的数据十分实用。但是,在每一图像有多个对象的更一般环境下,必须有更高级的方法。

鼻子探测

  鼻子具有十分明显的3D特征,因为它有很明显地的曲率特征而且突出于其余的面部部分。因此,最初选择这一特征来调整两个3D面部。有人定义了能够用每点的平均符号和高斯曲率评估表现特征的8个表面类型:峰面、凹面、脊面、谷面、鞍脊面、鞍谷面、扁平面和小面。为了探测鼻子,峰面是在2D距离图像内识别的。

  观察面部的原始2D距离图像,并根据此计算平均和高斯曲率估算,显示了在K大于0和H小于0的区域探测到的表面峰。根据得到的图像,使用户特定的探测比规定阈值更大的最大值的局部窗口尺寸9,计算了这些表面峰值区域的局部最大值。因为仍然有许多具备最大表面峰值,通过合并这些最大峰值和侵蚀掉的面罩(从侵蚀有效距离象素的面罩获得)就能够分离所关注的区域。接着将这些点作为一个单一点侵蚀来定义相关特征。剩余的点用它们的z坐标分类,面探测到的与传感器最近的点就是鼻子的位置。

  这一算法用储存有468个正面面部的数据库进行了测试;这些面部包括诸如头发和衣服这样的无关数据。通过用手选择鼻子的位置并将其与计算的位置进行比较验证这些结果。只要计算位置与手选位置的距离小于5.5mm就是正确的鼻子位置。该系统的性能具有98.3%的探测概率和1.7%的误报率,468次中有8次失误。在衣服和眼睛瞳孔深度区域探测到峰值引起错误的鼻子探测。通过应用算法来分割皮肤与头发和衣服可以进一步改进,但是,采用彩色空间信息使用现有数据库实现这一目的的初期方法没有成功,因为与距离数据相关的彩色图像的质量很差。大多数图像具有一种粉/淡紫色的外观,并不代表真正的颜色。

3D点串

  清楚的识别往往要披露数据,通常采用其最近邻点形成三角网眼的Delaunay配置。在这种三角测量中,没有连接跨度很大的点;这可以防止前表面覆盖后表面。另外,有些数据由于质量问题没有进行三角测量。3D数据实例,没有探测到区域包括后墙(因为传感器探测距离有限)和大部分头发区域(因为数据稀少)。表明自然距离边界通常可以用来通过将最近相邻点组或相连三角形组聚集成串进行分割。表面串的增强可可以通过在表面区域之间进行更清楚地分离,如在传感器的锐角处除去三角。在当前例子中,这可以分离面部和颈部。但是,这一方法不一定导致理想的分割。例如,如果该人观看传感器的上方导致面部和颈部的交叉处有一渐进倾斜,或在该人穿着T恤衫一类的紧身衣服时,就可以探测不到颈部和身体之间的清晰表面边缘。

面部对齐和比对

  面部表达特征可以分成两类:全局特征(GF)和局部特征(LF)。GF方法使用关于面部的各种数据(也就是所存储面部的表面区域、瞬间描述符、模板比对等)给面部编码。大多数GF的问题是它们在被采集对象因昏暗丢失和增加额外的信息时缺乏鲁棒性。在有些情况下可以进行修改,容许有昏暗。例如,豪斯多夫度量使用模板因此可归入GF类,但是它的部分形状修改使其能够可靠地处理昏暗。在LF比对中我们识别LF;在面部识别中眼睛、鼻子或嘴都是例子。对于每一LF我们都要计算与采集面部的比对,并计算存储的局部与相应的比对LF之间的关系。发现一组一致比对的方法具有最差情况的时间指数复杂性。因此,研究人员求助特别和次最佳方法来解决这一复杂性问题。

豪斯多夫比对

  我们解决FR问题的最初方法是使用从3D传感器获得的3D坐标作为基本全局表示。其后,我们使用豪斯多夫度量比对采集的点线表示法和3D数据库内存储的点线表示法。豪斯多夫度量用表示模板的一个有限点集A=〔a1,…ap〕与表示探测器的点B=〔b1,…bp〕比对。豪斯多夫度量被定义为H(A,B)=max(h(A,B),h(B,A)),式中h(A,B)=max min||a-b||。函数h(A,B)叫做从A到B的定向豪斯多夫距离,并可以视为验证假设范例内的假设部分。如果限制B的范围与A的一样,函数h(B,A)可以视为验证部分。这种度量具有O=(n2)(n是点的数目)性能并可以通过在格栅内放置数据和计算这一距离变换被改善为O(n)。这一距离变换是一种灰色图像,代表最近对象范围与象素化或体积元化空间内每一点的距离。豪斯多夫度量的很大优点是容易扩充来处理因闭塞导致的丢失和额外信息,只要计算h(A,B)=Kthmin||a-b||,式中Kth代表距离集中的Kth秩的值而且K控制最大容许闭塞。我们使用局部形状的豪斯多夫距离来说明自闭塞和额外信息(例如眼镜或其他非面部部分),因此提供一种解决这些问题的可行路径。

2D距离图像豪斯多夫比对

  为了处理进行3D数据点O(n2)豪斯多夫比对的计算问题、同时又避免存储实现O(n)性能需要的NxMxP体积元阵列的存储要求,已经生成了该问题的2D公式表达。这种距离变换方法一开始似乎很有吸引力;但是以0.025cm分辨率存储一个15*18*12cm的面部需要一个600*720*480整数体积元阵列(207,360,000个整数)。另外,这一阵列将必须作为面部表达存储、或在每次进行比对时进行对齐图像计算;两种情况都不方便,希望加以避免。

  我们使用一种不同的豪斯多夫距离公式来实施一种2D距离图像算法。这一公式使我们能够考虑下述情况:在两个点集这间生成的豪斯多夫距离被固定,而分数K/P(K是上节描述的Kth级值,P是A内的点的数目)量度两个点集A和B这间的比对质量。

  我们的算法操作如下。通过转变这些3D点集使它们的鼻子坐标处于3D空间的同一位置,获得根据每一3D点集(参见下节)生成的距离图像和初步调整。然后进行与许多跟踪和立体一致算法类似的一致性搜索,在定义图像B内的一个区域(WB)时我们在规定的搜索区(WS)内寻找图像A内的类似区域。但是在这一情况下,窗口尺寸WB是一(一个单点),而比对度量是两点之间的欧几里得距离。

  通过搜寻探测器图像内所示的窗口查找模版图像内指定点(黑点)的一致点。旋转微调探测器直到最后调准。这种基于窗口的搜寻效果很好,因为假定将点集A和B精密调准,因而生成更好比对的一致是互相接近的。一旦获得了一致,只选择在固定豪斯多夫距离D内的3D点来确定最小平方旋转(如果这些点的百分比小于50%,使用最低误差的50%)。如果这种变换(适用于B)改善了平均方误差(MSE)和豪斯多夫分数,就基于这一旋转点集为B创建了一新的距离图像,并继续这一过程直到最后调正好。

创建距离图像

  在创建距离图像时,保存对象的相对尺寸信息十分重要。正如前面提到的,2D图像不保存尺度信息,但是3D传感器维持真正的3D信息。因此我们能够保证,尽管目标对摄像机的距离不同视角之间有所不同,但是相对面部尺寸信息将保持不变。所采取的方法是应用标准线形绘图绘制这些3D点,使(x,y,z)变换为点(xt,yt,zt),式 (xt,yt)规定具有zt值的图像象素位置。用相容的比例系统r计算每一维的3D坐标线形尺度。这一比例系数确定距离图像的分辨率。对于一线数据值应用线形变换在方程中给出。通过用y和z代替x,获得yt和zt的方程。比便系统r和图像尺寸N*M十分重要,因为它们能够确定图像编码分辨率和在图像平面内占据某唯一象素的坐标数。

多分辨率金字塔

  多分辨率分析是一种方法,经常在需要搜寻大区域而不增加相关计算成本的情况下采用。这一方法是1级的图像代表原始图像以21/s比率的取样。这样,以较低分辨率搜寻近似于使用更大的窗口尺寸(也就是以4个分辨率或3个级别使用一个核心尺寸3近似于一个9的窗口尺寸)而且要求较少的相应点。

  为了成功地应用我们的算法,必须考虑多分辨率分析对原始3D坐标旋转的影响。结果更高分辨率的旋转可以用以较低分辨率的类似旋转度量变换来表示。理解这一点可以通过观察下面一组方程,式中P0是在分辨率为0(全分辨率)时的一点,P1是在分辨率级1的一点,S1是一对角测量度量,R是全分辨率点集的旋转度量,而R1是所测得点集的旋转度量。

Pn=RP0andp1=S1P0         1

P1=S1P0andp1=R1P1=R1S1P0    2

P0=S-1Pr=S-1R1S1PO   3

R=S-1R1S1               4

方程1和2直接使用适用于全分辨率点和级1点的旋转和测量特性。方程3则合并1和2来按照方程4所示的较低分辨率旋转实现全分辨率旋转。保持对全分辨率的跟踪意味着在我们把这一点集对齐到分辨率棱锥内时旋转数据点是正确的。注意所概述的这种终止标准只适用于单一的分辨率级别;因此尽管有更早级别的终止,所有的分辨率级别都要访问。

实验

  下面用冒名顶替者对单一探测器数据库进行3D FR验证分析。这种验证工作模拟经过批准的个人在进入某设施并出示身份证的入口控制场面。接着将这个人的对齐数据与直接从该人采集的数据进行比较。如果相似性足够大,就允许该对象进入设施。这种使用冒名顶替者的验证工作考虑到未经批准的个人可能寻求进入上述设施并试图使用合法用户的身份证获得进入。因此这种算法必须有足够的选择性,即使合法的个人能够,又能够拒绝非法用户的进入。我们还分析了在有许多人的数据库内搜索合法用户和系统必须确定该用户身份的识别场景。

数据采集

  下面分析中使用的3D面部图像来自Notre Dame大学生物统计常数据库的D集。这一数据库包括在13周期间内采集的275个对象的图像。在这275名对象中,200名参加了不只一次实验,从而能够用第一个图像作为图库(对齐)图像,其后采集的图像作为探测器图像(与图库比较的测试图像)。这些图像是用Minolta Vivid 900距离扫描器采集的,它使用一种投射激光条采集三角距离数据。扫描器在采集距离图像时,几乎同时采集彩色图像,生成一个640*480的3D点阵列和一个对齐的640*480彩色图像。

对象的调整

  为了进行验证研究,图库数据库包含有200个对象,而单一探测器数据库包括几乎是该图库对象最早的数据采集;探测器数据集中加入68个冒名顶替者。尽管不保证冒名顶替者及其所主张的身份之间有高度的相似性,但是冒名顶替者确实选择的是同性别假冒身份。为了进行识别研究,将单一探测器数据库内的头30个对象与图库数据库内的头30个对象进行比较,造成900次比对,包括30次可能正确的探测和870次可能不正确的探测。由于现行算法的计算成本,识别研究中的对象数目是有限的。除了观察这一全数据集的性能,降低了该3D数据集的分辨率来观察它对性能的影响。

分析

  为了评估2D距离图像豪斯多夫算法的对齐和比对效用,分析了两个错误度量:豪斯多夫分数(在相互距离D内的数据百分比)和距离D内数据点之间的平均方误差(MSE)。我们的量度表明两个数据集之间的一致性,而其他量度表明它们适合的质量。但是,如果豪斯多夫分数小于0.50,就在MSE计算中使用最低误差点的50%。如果没有这一制约,MSE度量的效果将高度依赖于豪斯多夫分数。例如,当豪斯多夫分数为零(没有点可调整)时MSE也将为零,因此没有值。我们认为,豪斯多夫分数和MSE度量都极其重要因而将在今后的工作中探讨合并它们的方法。

  为了生成下面的图形(图略),改变探测门限(MSE或豪斯多夫分数)并观察正确探测和不正确探测的关系。这一图形叫做接收器运算符特性(ROC)曲线。作为多分辨率分析的一种副作用,计算了与在较小分辨率计算这一比对相关的性能。在每一分辨率级别都用21/s进行再取样,这里S=21/2而1的最大值在0和3之间(在1=0时使用了大约20,000到35,000个点,取决于面部大小和扫描器与对象的距离)。