Paul Viola经典人脸检测算法论文翻译

2026/4/24 10:26:20

简单特征的优化级联在快速目标检测中的应用

Paul Viola

viola@merl.com 三菱电气实验室 201 broadway, 8th FL 剑桥，MA02139

摘要

本文描述了一个视觉目标检测的机器学习法，它能够非常快速地处理图像而且能实现高检测速率。这项工作可分为三个创新性研究成果。第一个是一种新的图像表征说明，称为“积分图像”，它允许我们的检测的特征得以很快地计算出来。第二个是一个学习算法，基于Adaboost自适应增强法，可以从一些更大的设置和产量极为有效的分类器中选择出几个关键的视觉特征。第三个成果是一个方法：用一个“级联”的形式不断合并分类器，这样便允许图像的背景区域被很快丢弃,从而将更多的计算放在可能是目标的区域上。这个级联可以视作一个目标特定的注意力集中机制，它不像以前的途径提供统计保障，保证舍掉的地区不太可能包含感兴趣的对象。在人脸检测领域，此系统的检测率比得上之前系统的最佳值。在实时监测的应用中，探测器以每秒15帧速度运行，不采用帧差值或肤色检测的方法。

Michael Jones

mjones@crl.dec.com 康柏剑桥研究所剑桥中心

剑桥，MA02142

1.引言

本文汇集了新的算法和见解，构筑一个鲁棒性良好的极速目标检测框架。这一框架主要是体现人脸检测的任务。为了实现这一目标，我们已经建立了一个正面的人脸检测系统，实现了相当于已公布的最佳结果的检测率和正误视率， [16，12，15，11，1]。这种人脸检测系统区分人脸比以往的方法都要清楚，而且速度很快。通过对384×288像素的图像，硬件环境是常规700 MHz英特尔奔腾III，人脸检测速度达到了每秒15帧。在其它人脸检测系统中，一些辅助信息如视频序列中的图像差异，或在彩色图像中像素的颜色，被用来实现高帧率。而我们的系统仅仅使用一个单一的灰度图像信息实现了高帧速率。上述可供选择的信息来源也可以与我们的系统集成，以获得更高的帧速率。

本文的目标检测框架包含三个主要创新性成果。下面将简短介绍这三个概念，之后将分章节对它们一一进行详细描述。

本文的第一个成果是一个新的图像表

征，称为积分图像，允许进行快速特征评估。我们的检测系统不能直接利用图像强度的信息工作[10]。和这些作者一样，我们使用一系列与Haar基本函数相关的特征：（尽管我们也将使用一些更复杂的滤波器）。为了非常迅速地计算多尺度下的这些特性，我们引进了积分图像。在一幅图像中，每个像素使用很少的一些操作，便可以计算得到积分图像。任何一个类Haar特征可以在任何规模或位置上被计算出来，且是在固定时间内。

本文的第二个成果是通过使用AdaBoost算法选择数个重要的特征构建一个分类器[6]。在任何图像子窗口里的类Haar特征的数目非常大，远远超过了像素数目。为了确保快速分类，在学习过程中必须剔除的大部分可用的特征，关注一小部分关键特征。选拔工作是通过一个AdaBoost的程序简单修改：约束弱学习者，使每一个弱分类器返回时仅可依赖1个特征[2]。因此，每个改善过程的阶段，即选择一个新的弱分类器的过程，可以作为一个特征选择过程。 AdaBoost算法显示了一个有效的学习算法和良好的泛化性能[13，9，10]。

本文的第三个主要成果是在一个在级联结构中连续结合更复杂的分类器的方法，通过将注意力集中到图像中有希望的地区，来大大提高了探测器的速度。在集

中注意力的方法背后的概念是，它往往能够迅速确定在图像中的一个对象可能会出现在哪里[17，8，1]。更复杂的处理仅仅是为这些有希望的地区所保留。衡量这种做法的关键是注意力过程的“负误视”（在模式识别中，将属于物体标注为不属于物体）的概率。在几乎所有的实例中，对象实例必须是由注意力滤波器选择。

我们将描述一个过程：训练一个非常简单又高效的分类器，用来作为注意力操作的“监督”中心。术语“监督”是指：注意力操作被训练用来监测特定分类的例子。在人脸检测领域，使用一个由两个类Haar特征构建的分类器，有可能达到1％不到的负误视和40％正误视。该滤波器的作用是减少超过一半的最终检测器必须进行评估的地方。

这些没有被最初的分类器排除的子窗口，由接下来的一系列分类处理，每个分类器都比其前一个稍有复杂。如果某个子窗口被任一个分类器排除，那它将不会被进一步处理。在检测过程的级联结构基本上是一个退化型决策树，这点可以参照German和同事的工作[1，4]。

一个非常快速的人脸检测器有广泛实用性。这包括用户界面，图像数据库，及电话会议。在不太需要高帧速率的应用中，我们的系统可提供额外的重要后处理和分析。另外我们的系统能够在各种低功率的

小型设备上实现，包括手持设备和嵌入式处理器。在我们实验室我们已经将该人脸检测系统在Compaq公司的ipaq上实现，并达到了两帧每秒的检测率（该设备仅有200 MIPS的低功耗处理器，缺乏浮点硬件）。

本文接下来描述我们的研究成果和一些实验结果，包括我们实验方法学的详尽描述。每章结尾会有对近似工作的讨论。

2.特征

我们的目标检测程序是基于简单的特征值来分类图像的。之所以选择使用特征而不是直接使用像素，主要是因为特征可以解决特定领域知识很难学会使用有限训练资料的问题。对于这些系统来说，选择使用特征还有另外一个重要原因：基于特征的系统的运行速度要远比基于像素的快。

矩形特征可以反映检测窗口之间的联系。白色矩形框中的像素和减去灰色矩形框内的像素和得到特征值。(A)和(B)是矩形特征。(C)是三矩形特征。(D)是四矩形特征。

图 1

上述简单特征是基于Haar基本函数设置的，Papageorgiou等人已使用过[10]。而

我们则是更具体地选择了特定的三类特征。其中，双矩形特征的值定义为两个矩形区域里像素和的差。而区域则具有相同尺寸和大小，并且水平或垂直相邻（如图1）。而三矩形特征的值则是两个外侧矩形的像素和减去中间矩形的和所得的最终值。最后一个四矩形特征的值是计算两组对角线矩形的区别而得的。

检测器的基本分辨率设定为24×24，既而得到数目巨大的矩形特征的完备集，超过了180000。需要注意的是，矩形特征的集合不像Haar基底，它是过完备1的。

2.1积分图像

我们采用一个中间表示方法来计算图

像的矩形特征，这里称为积分图像21

。位

置x,y上的积分图像包含点x,y上边和左边的像素和，包括：

ii(x,y)??i(x?,y?),x??x,y??y当ii(x,y)是积分图像，i(x,y)是原始图像。可以使用下列一对循环：

s(x,y)?s(x,y?1)?i(x,y) （1）ii(x,y)?ii(x?1,y)?s(x,y) （2）（这里s(x,y)是累积行和，

一个完备基底在集元素之间没有线性独立，且数目和图像空间的元素个数相等，这里是576。在总数为180,000的全集中，数千特征是多次过完备的。

2 在图形学中还有个近义词称为“区域求和表”[3]。这里我们选择一个不同名称，是为了便于读者理解这是用来进行图像处理，而不是纹理映射的。

s(s,?1)?0，ii(?1,y)?0）积分图像可以

通过已知原始图像而一步求得。

使用积分图像可以把任意一个矩形用四个数组计算(见图2)。显然两个矩形和之差可以用八个数组。因为双矩形特征的定义是两个相邻矩形的和，所以仅用6个数组就可以计算出结果。同理三矩形特征用8个，四矩形特征用9个。

矩形D内的像素和可以按四个数组计算。位置1的积分图像的值就是矩形A中的像素之和。位置2的值是A+B，位置3的值是A+C，而位置4的值是A+B+C+D。那么D中的像素和就是4+1-（2+3）。

图 2

2.2特征讨论

和一些相似方法，如导向滤波比较起来，矩形特征看似有些原始[5,7]。导向滤波等类似方法，非常适合做对边界的详细分析，图像压缩，纹理分析。相比之下矩形特征，对于边缘，条纹，以及其他简单的图像结构的敏感度，是相当粗糙的。不同于导向滤波，它仅有的有效位置就是垂直，水平和对角线。矩形特征的设置做不过是提供了丰富的图像表征，支持有效的

学习。与积分图像一起，矩形特征的高效给它们有限的灵活性提供了极大补偿。

3.自学式分类功能

给定一个特征集和一个包含正图像和负图像的训练集，任何数量的机器学习方法可以用来学习分类功能。在我们的系统中，使用AdaBoost的一种变种来选择小规模特征集和调试分类器[6]。在其原来的形式中，这种AdaBoost自学式算法是用来提高一个简单（有时称为弱式）自学式算法的。AdaBoost自学步骤提不少有效保证。Freund和Schapire证明，在相当数量的循环中，强分类器的调试误差接近于零。更重要的是，最近相当数量的结果证明了关于泛化性能的优势[14]。其关键观点是泛化

性能与例子的边界有关，而AdaBoost能迅速达到较大的边界。

回想一下，有超过180,000个矩形特征与每个图像子窗口有关，这个数字远大过

像素数。虽然每个特征的计算效率非常高，但是对整个集合进行计算却花费高昂。而我们的假说，已被实验证实，可以将极少数的特征结合起来，形成有效的分类器。而主要挑战是如何找到这些特征。

为实现这一目标，我们设计弱学习算法，用来选择使得正例和负例得到最佳分离的单一矩形特征（这是[2]中方法类似，在图像数据库检索域）。对于每一个特征，弱学习者决定最优阈值分类功能，这样可

Paul Viola经典人脸检测算法论文翻译.doc 将本文的Word文档下载到电脑

下载这篇word文档