毕业
译文:
二维主成分分析法:一种基于外观的人脸描述和识别的新方法
杨建,张大卫,Alejandro F. Frangi,杨靖宇,,IEEE高级会员
摘要 在本文中,提出了一种图像表示的新技术即二维主成分分析(2DPCA),与PCA相比,2DPCA的基础是二维图像矩阵,而不是一维向量。因此,在特征提取之前图像矩阵不需要预先转变为一维向量,相反,一个图像协方差矩阵的构造直接利用原始图像矩阵及其特征向量。为了测试其有效性和评估其性能,在ORL, AR, 和 Yale三大人脸数据库中进行了一系列实验。实验结果表明,使用2DPCA的识别率均高于PCA,而且2DPCA在图像特征提取方面比PCA更有效。
关键词:主成分分析(PCA);特征脸;特征提取;图像描述;人脸识别
1. 引言
主成分分析(PCA),又称Karhunen-Loeve展开,是一个经典的特征提取和数据表示技术,广泛应用于模式识别和计算机视觉领域。sirovich和Kirby[1] [2]第一次使用PCA能够有效地代表人类面孔的照片,他们认为,任何人脸图像作为一个小图像,定义了面部的基础上(eigenimages)收集和平均脸图像的加权总和,约可重构。在这一背景下,土耳其人和Pentland[3]在1991年提出了著名的面部识别特征脸方法。从那时起,主成分分析得到了广泛的研究,并已成为一个在人脸识别中的最成功做法[4] [5] [6] [7]。当特征脸用于人脸识别时,Penev and Sirovich[8]讨论了 “脸部空间” 的维。赵和杨[9]试图解释基于PCA的视觉系统的任意光照影响,通过在一个特殊的照明条件下产生的协方差矩阵的解析封闭形
[10]
式公式,然后通过光照方程推广到任意光照的公式。然而,Wiskott等指出PCA无法捕捉到哪怕是最简单的不变,除非这些信息是在训练数据中明确规定的,他们提出了被称为弹性束图匹配的技术来克服PCA的弱点。
最近,两个主成分分析相关的方法,独立分量分析(ICA)和核主成分分析(PCA的内核)已被广泛关注。Bartlett[11]和Draper[12]等建议使用人脸表示的ICA方法并且发现,这是优于主余弦的相似性度量(然而,如果采用欧氏距离他们的表现没有显著差异)。杨[14]使用核PCA用于人脸特征提取和识别并且发现内核特征脸方法优于经典的特征脸方法。然而,ICA和核PCA的计算都比PCA更昂贵。实验结果表明,ICA,核PCA和PCA所需的计算时间平均比为8.7:3.2:1.0。 在基于PCA的人脸识别技术中,二维人脸图像矩阵必须转化成一维图像矢量。面产生的图像载体,通常会导致高三维图像的向量空间,由于其庞大的规模和数量相对较少的训练样本,它是难以准确评估的协方差矩阵。幸运的是,使用的SVD[1] [2]技术可以有效的计算出特征向量(特征脸),并且协方差矩阵生成的过程,实际上是可以避免的。然而,这并不意味着,特征向量器可以准确地评估,这是因为不管用什么方法获得向量,特征向量统计是由由协方差矩阵确定的。 在本文中,一个简单的图像投影技术,二维主成分分析(2DPCA)被 开
发用于图像特征提取。和传统的PCA方法相比,2DPCA是基于二维矩阵而不是一维向量。也就是说,图像矩阵不需要事先转化成一个向量。相反,图像协方差矩阵直接使用原始图像矩阵构造。与PCA的协方差矩阵相比, 使用2DPCA的图像协方差矩阵的规模要小得多。总之,2DPCA比PCA有两个明显的优势:第一,它更容易准确地评估协方差矩阵;第二,确定相应的特征向量时需要的时间更少。
本文的其余部分安排如下:在第2节,2DPCA建议的方法及其算法的想法描述。在第3节,使用2DPCA的图像重建方法的发展。第4节中,实验结果提出了在ORL,AR,耶鲁人脸图像数据库展示的2DPCA的有效性和稳健性。最后,结论是在第5节。 2. 二维主成分分析 2.1 思想和算法
设X表示n维单位列向量。我们的想法是,把图像A看作是一个m×n的随机矩阵,通过如下线性变换[15] [19]:
Y?AX (1)
将A投影到X上,因此,我们得到一个m维的投影向量Y,称为图像A的投影特征向量,我们怎么确定最优投影向量X呢?事实上,预计样本的总散射度可以衡量投影向量X的鉴别能力。预计样本的总分散度的特性可以描述预计的特征向量的协方差矩阵。从这个角度,故定义如下准则函数:
J(X)?tr(S) (2) x其中Sx表示投影特征向量的协方差矩阵,tr(Sx)表示Sx的迹。函数(2)的意义是在所有样本中找到能产生最大散射度的投影方向X。协方差矩阵Sx可由下式计算:
Sx?E(Y-EY)(Y-EY)T?E[AX-E(AX)][AX-E(AX)]T?E[(A-EA)X][(A-EA)X]T
则,
tr(Sx)?X[E(A-EA)TT(A-EA)] (3)
我们定义下列矩阵:
Gt?E[(A-EA)T(A-EA)] (4)
矩阵Gt被称为图像的协方差(散度)矩阵,易知Gt是一个n×n的非负定矩阵,从它的定义,可以用训练样本图像来直接估计,设共有M幅训练样本图像,第j幅图像用m×n的矩阵Aj(j=1,2,?,M)来表示,所有训练样本的平均图象由A.表示,这样,可用下式估计Gt:
Gt?1MM
?(Aj?1j-A)(Aj-A)T (5)
因此,准此函数(2)可表示为:
J(X)?XGtXT (6)
其中X是一个归一化的列向量,这个标准被称为广义的总散射度标准。X对应的投影方向被称为最佳的投影轴,。直觉上,预计样本的总散射度最大化后的图像矩阵投影到X。
最佳投影方向Xopt的即时Gt的最大特征值所对应特征向量的方向。一般情况下,只取一个最优投影方向,分类鉴别能力是不够的,通常情况下会选择相互正交且极大化准则函数的一组投影向量X1,X2,?,Xd,即:
??X1,?,Xd??argmaxJ(X)?T ?XiXj?0,i?j,i,j?1,?,d (7)
事实上,这里的投影方向X1,X2,?,Xd就是 Gt的前d的最大特征值对应的特征向量。
2.2 特征提取
2DPCA的最优投影向量X1,X2,?,Xd用于特征提取,对于一个给定的样本图像A 。令
Yk?AXk,k?1,2,?,d. (8) 然后,我们得到的预计的特征向量组Y1,Y2,?,Yd,称为样本图像A的主成分(向量),应当指出的是,每个2DPCA的主成分是一个向量,PCA的主成分是一个数量。获得的主成分向量被用来构成一个m×d的矩阵B=[Y1,Y2,?,Yd],这被称为样本图像A的特征矩阵或特征图像。 2.3 分类方法
经过2DPCA的特征提取之后,每一幅图像都得到一个特征矩阵,然后,可以使用最近邻分类器进行分类。在这里任意的两个特征矩阵
Bi=[Y1,Y2,?,Yd] 和 Bj=[Y1,Y2,?,Yd]之间的距离定义为
d d?Bi,Bj???k?1Yk-Yk(i)(j)2 (9)
这里 Yki-Ykj2表示两个主分量向量Yki和Ykj之间的欧几里得距离。
?,BM(M是训练样本总数),每一个样本都属于某个假设训练样本为B1,B2,特定的身份(类别 )?k。给定一个样本B,若有d(B,Bl)=min d(B,Bj),且有
Bl??k ,则分类结果是B??k 。
3. 基于二维主成分分析的图像重构
在特征脸方法,主要部件和特征向量(特征脸)可以结合起来,重构人脸图像。类似地,2DPCA可以用在以下的方法进行人脸图像重构。
假设X1,X2,?,Xd是对应于图像协方差矩阵Gt的前d个最大特征值所对应的正交归一特征向量,图像A向这些投影轴投影后,则可得到相应的主分量向量为 Yk?AXk,k?1,2,?,d.. 令 V= ?Y1,?,Yd?,U= ?X1,?,Xd?,则
V?AU (10) 由于X1,X2,?,Xd两两相交,从图像A容易得到重构图像为
d A?VUT??Yk?1kXkT (11)
令 Ak?YkXkT(k?1,2,?,d) ,这是一个和A相同的大小图像,代表A的重建子图。也就是说,图像A大致可以由前d子图像重建,特别当主分量向量的数目d=n(n是矩阵Gt特征向量的总数),有 A?A,即根据图像的主分量向量可以无损地重构原始图像;若d 4. 实验和分析 2DPCA方法在三个著名的人脸图像数据库(ORL,AR,Yale)上进行人脸识别和测试。在姿势和样本大小是多种多样的的条件下,使用ORL数据库进行2DPCA性能评估。在照明条件,随着时间的推移,其中有面部表情的变化,使用AR数据库进行系统的性能测试。当双方的面部表情和光照是多种多样时,使用Yale数据库来检查系统的性能。 4.1 ORL数据库上的实验 ORL数据库(http://www.cam-orl.co.uk)包含40个人,每个提供10种不同的图像。对于某些科目,图像是在不同的时间拍摄的。面部表情(开或闭的眼睛,微笑或不微笑的)(眼镜或不戴眼镜)和面部细节也有所不同。图像在拍摄人脸时的一些倾斜和旋转面高达20度。此外,也有一些在规模达10%左右的变化。所有图像的灰度和正常化达到92×112像素的分辨率。如图1,是从ORL数据库的样本图像取出的一个人的五中图像。 图1,五个样本在ORL人脸数据库中的一个主题的图像 首先,实验使用每类图像样本的前五个图像进行训练,并测试剩余图像。 因此,训练样本和测试样本总数均为200。 2DPCA算法用于特征提取。这里,图像协方差矩阵Gt的大小为92 ×92,所以很容易计算出它的特征向量。我们

