大数据环境下基于迁移学习的人体检测性能提升方法

陈骏龙，刘亚洲，唐晓晴

（南京理工大学计算机科学与工程学院，江苏南京210094）

摘要：大数据环境下，可用于人体检测的数据样本数量迅速增长。这些数据样本在清晰度以及所包含的判别信息等方面有较大差别，导致这些数据无法直接使用。传统基于迁移学习的人体检测方法主要针对没有目标域样本或者目标域样本很少的情况，无法充分利用大量的数据样本。针对这一问题，提出基于迁移学习的人体检测性能提升方法，该方法根据迁移学习的思想，利用分类器的特性计算源样本与目标样本间的相似性并根据样本分布图，筛选目标样本更新分类器。相对于已有方法，该方法充分利用了数据，且在不增加检测时间的基础上对检测性能有一定的提升。

教育期刊网 http://www.jyqkw.com
关键词：大数据；迁移学习；人体检测；SVM

中图分类号：TN911?34；TP391.4 文献标识码：A 文章编号：1004?373X（2015）14?0001?05

收稿日期：2015?03?02

基金项目：国家自然科学基金：基于粒度空间特征的行人检测方法研究（61300161）；教育部博士点基金（20133219120033）；江苏省社会安全图像与视频理解重点实验室（南京理工大学）开放基金项目（JSKL201306）

0 引言

近年来人体检测一直是目标检测的热门主题，在智能监控、车载系统以及交通系统等应用中处于核心地位，吸引了许多研究人员从事这一研究。由于人体姿态、衣着和背景的频繁变化让其成为计算机视觉研究的一大挑战。目前用于人体检测的方法很多，例如较早的Haar特征[1]、对其进行的优化[2?3]、目前流行的HOG特征[4]以及根据HOG 特征改进的可变形部件模型（Deform?able Part Models）[5]等。

随着人体检测的发展，用于人体检测的数据样本数量也在不断增长。例如常用数据库：MIT[1]，INRIA[4]，Caltech[6]等，根据时间的变化，数据样本数量呈现出不断增长的趋势。2000年建库的MIT只有900多行人样本，2009年建库的Caltech有30万行人样本，行人样本数量增加了300多倍。

现有方法通常使用一次原始数据训练模型，无法应对一些场景的变换。针对场景的变化，许多研究人员利用迁移学习的思想对行人检测进行了优化。迁移学习的目标是有效地利用先验知识，达到更快，更好地解决新问题的目的[7]。目前迁移学习已经广泛地应用在自然语言处理[8?9]和模式识别[10?11]等领域。文献[12]利用迁移学习解决了在特定场景下的行人检测问题，提出了基于分类一致性的学习模型，该模型有效地提高了检测效果。还有直接添加样本的方法[13]，这个方法迭代约10 次后性能可达到最大值。文献[14?15]根据目标域中两类样本的分布，更新源样本的权值，本质上就是从源样本中选取与目标样本相似的部分进行训练，这个方法迭代2次后就可达到最佳效果。上述方法解决了场景变换对检测的影响，但是这些方法无法有效地利用已有目标样本[16?19]。

本文主要基于迁移学习的思想，针对大量已有的数据，从样本选择方面入手，依据样本间的相似性和样本的分布特征对数据筛选。该方法能够有效地应用已有数据样本，提升检测性能。

1 大数据环境下基于迁移学习的人体检测

1.1 人体检测所用特征及分类器

本方法采用方向梯度直方图（HOG）特征与支持向量机（SVM）分类器[4]。HOG 特征对图像的几何形变和光照的变化都能保持很好的不变性。特征提取方法：将检测图像分为N 个胞元（Cell），由若干个胞元组合为一个块（Block），整副图像由可重叠的若干块构成，通过统计每块包含的胞元在各方向上的梯度分布，组成图像的HOG 特征。支持向量机（SVM）是一种基于VC 维与结构风险最小化原理的机器学习方法。通过寻找最佳分类平面，使两类不同数据点间隔最大，从而对数据进行分类。SVM 对于小样本非线性以及高维数据有很好的分类效果。

1.2 迁移学习

迁移学习可以从现有的数据中迁移知识帮助学习。它的目标是利用从一个环境中学到的知识去帮助新环境中的学习任务，因此迁移学习不会像传统机器学习那样做同分布假设。传统的机器学习与迁移学习的大致流程[20]如图1所示。迁移学习方面的工作主要分为以下3个部分：同构空间下基于实例的迁移学习，同构空间下基于特征的迁移学习与异构空间下的迁移学习。基于实例的迁移学习具有更强的知识迁移能力，基于特征的迁移学习具有更广泛的知识迁移能力，而异构空间的迁移学习具有广泛的学习与扩展能力。

迁移学习常用符号表示如下：D 表示域，由特征空间χ 与边缘概率分布P（X）两部分组成。其中X 是一个特定的学习样本，X ={x1,x2 ,?,xn}∈ χ ，xi 是对应于这个学习样本的第i 个特征向量。通常情况下，如果两个域不同，那么他们的特征空间或者边缘概率分布就不同。给定一个域D ={ χ,P(X)} ，任务T 由两部分组成：标签空间Y 和目标预测函数f (?) ，表示为T ={Y,f (?)} 。目标预测函数f (?) 只能通过学习训练数据{xi ,yi} 得到，其中xi∈ X ，yi∈ Y 。给定实例x ，可以用目标检测函数f (?) 预测对应的结果f (x) 。

迁移学习定义：给定源域DS 与源域的任务TS ，目标域DT 与目标域的任务TT ，用源域DS 与源任务TS 的知识，当DS≠ DT 或者TS≠ TT ，改进目标域DT 中的目标预测函数f (?) 的能力。

三类迁移学习：

（1）同构空间下基于实例的迁移学习：其基本思想是源域与目标域之间存在差异，但仍有部分样本之间存在关系，这部分样本比较适合训练针对目标域的检测器。此类的目标是从源域训练数据中找出与目标域数据相似的实例，将这些实例迁移到目标域的学习中去。其关键技术是如何过滤源域中与目标域差异较大的数据。

（2）同构空间下基于特征的迁移学习：其基本思想是利用互聚类算法同时对源域与目标域数据进行聚类，产生一个公共的特征表示，新的特征比原始特征更优。通过把目标域数据表示在这个新的空间里，以实现迁移学习。根据源域中有无有标记数据又分为基于特征的有监督迁移学习和基于特征的无监督迁移学习（自学习聚类）。

（3）异构空间下的迁移学习（翻译学习）：主要用于解决源域与目标域数据分别属于两个不同特征空间的问题。

1.3 基于迁移学习思想模型更新策略

基于迁移学习思想模型更新策略主要利用了同构空间下基于实例的迁移学习思想并对其扩展，更新策略过程如图2所示。利用目标域与源域的相似性过滤数据，筛选目标域的数据用于更新检测模型。

传统的迁移学习方法根据样本特征分布直接筛选源样本，如图3所示，样本点距离表示其相似性，并采用K 近邻等聚类方法选择样本[21]，K 近邻等方法的参数等只能根据经验选择并且对结果影响很大。

本文介绍的策略使用分类器对目标域与源域样本打分，根据得分分布筛选目标域样本，最终更新模型，很好地克服这一问题，且在衡量相似性方面，传统方法将特征投影至低维根据距离确定相似性，其过程中会损失一定的判别信息；本方法使用分类器得分衡量相似性，对特征的使用更加充分。

基于迁移学习思想的模型更新策略：给定源域DS和源任务TS 及目标域DT 和目标任务TT ，当DS 与DT 相似但不相等，且TS = TT = T 时，利用分类器对DS 与DT 打分，根据得分分布，对目标域DT 进行筛选得到DT′ 。

本文使用通用分类器（SVM）对各个样本打分，根据得分的分布衡量目标域与源域样本的相似性。如图4所示，源域与目标域样本所占比例最大的位于各自的中间位置，可以看出这一部分的样本最能代表各自的域。根据这个理论，将目标域样本分为3个部分：分数最高（max）、分数中等（mid）以及分数最低（min）。根据图4可得分数的高低所代表的意义如下：

（1）max：与源域样本交集最大，代表DT 中与DS 最相似的数据，根据SVM 分类器的特点可知这一部分数据样本距离分类面最远（识别为正样本），最容易分辨。同时，在同构空间中对目标域与源域样本都有很好的判别能力，因此这部分数据包含判别信息最多。

（2）mid：目标域中所占比例最大，与源域有一定交集，代表DT 中与DS 相关但有一定区别的数据，这部分数据在DT 中处于主导地位，在数量上占有很高比例，根据SVM 分类器的特点可知，这部分样本位于分类面附近，包含一定的判别信息。

（3）min：与源域样本几乎没有交集，代表DT 中与DS 最不相似的数据，根据SVM分类器特点可知这部分数据距离分类面最远（识别为负样本），包含判别信息最少。

在筛选数据时选择max 与mid 样本，过滤min 样本。min样本包含判别信息最少，可能会对分类器产生负作用；max样本包含了大量的判别信息；mid包含了目标域的大部分特征。因此在max 样本中加入mid 样本可以使分类器在保证检测能力的基础上向目标域迁移。

具体算法如下所示：

基于迁移学习思想的模型更新策略：

/*初始化通用检测器*/

（1）用源域数据训练模型：对DS 数据提取HOG 特征，用SVM分类器训练模型；

（2）加入难例：用训练好的分类器对负样本重新检测，把检测为正的样本作为难例；

（3）训练通用检测器：把难例加入负样本，重新训练检测器，得到通用检测器；

/*数据筛选*/

（4）筛选目标域数据：用通用检测器对DT 打分，按分数把数据分为max，mid，min三类，选择max和mid两类数据构成DT′ ，过滤min；

/*更新检测器*/

（5）对过滤后得到的数据DT′ ，提取HOG特征，用SVM训练模型；

（6）重复步骤（2）；

（7）重新训练得到最终模型：加入步骤（6）中得到的难例，重新训练，得到最终的模型。

2 实验

2.1 实验数据集与评测方法

源域数据选择的是INRIA行人数据库，INRIA数据库中行人的正样本有2 416张，分辨率为64×128，如图5所示，负样本有1 218 张，每张负样本随机取10 个64×128的图像块。目标域数据选择的是Caltech行人数据库，Caltech库是由行车记录仪拍摄得到的，特点是数据量大，用于训练的0~5有6万多个正样本，样本间质量差异较大，如图6 所示，min 中样本肉眼也不易分辨。Caltech中用于测试的6~10则包含了大量的被遮挡以及低分辨率的行人目标，是目前最有挑战的数据库之一。

实验使用漏检率（Miss Rate）和每张图片中误检数（False Positive Per Image，FPPI）来衡量检测效果[6]。漏检率即未检测出的行人样本与行人样本总数的比值，如式（1）所示：

误检数代表将每张待检测图片中错误标记为正样本的数量。

2.2 实验结果与分析

与Dalal提出的基于HOG 特征的行人检测[4]对比，在目标域中也选择大约2 000 个正样本，负样本与文献[4]中的方法一致，对1 218张INRIA的负样本随机截取12 180张。

（1）检测出难例数量与迭代次数。Dalal在文献[4]中提出了在训练出第一个检测器后对负样本检测，将检测出的样本作为难例加入负样本重新训练，提出了迭代1次上述操作后难例减少，并且随着迭代次数的增加检测效果不变。在筛选数据后也重复了这一步骤，使用max样本训练所得结果如图7所示，可以看出难例与检测效果的变化与Dalal所得结果一致，因此在后面对比实验中只选择加入1次难例的结果。

（2）对数据的筛选。如前文所述，将目标域数据分为max，mid与min，在每个分段中分别选择2 000个正样本用于训练，并根据样本得分分布得出的假设，选择1 000 个max 样本与1 000 个mid 样本联合训练，并且在样本中随机选择2 000 正样本用作对比。

如图8（a）所示，实验结果证明了本文的假设。对于min来说，几乎没有判别信息，可以看出其漏检率达到了100%（无检测能力），同样包含了部分min 样本的随机选择（Random）样本漏检率为92%，这也说明了大数据环境下数据样本虽然很多，但由于样本的质量有所差异，因此无法直接使用。对于mid与max样本漏检率分别为63%与66%，而选择max与mid样本的实验结果漏检率也达到了63%，证明了本文的假设是成立的。图8（b）则提供了使用本策略更新后的检测器与原始检测器的分类效果对比，相对于原始基于HOG特征的行人检测，我们的方法在漏检率上有了5%的提升。在时间及计算量方面，相对于原始方法，只增加了一次模型训练，检测过程与原方法一致，检测时间没有增加。

3 结语

大数据环境下用于行人检测的数据样本数量很多，然而由于样本之间存在差异，这些数据无法直接使用。本文针对这一场景提出了基于迁移学习的提升人体检测性能的方法，与传统迁移学习方法相比，充分利用了已有数据样本，与传统人体检测方法相比解决了数据样本无法直接使用的问题。

教育期刊网 http://www.jyqkw.com
参考文献

[1] PAPAGEORGIOU C，POGGIO T. A trainable system for ob?ject detection [J]. International Journal of Computer Vision，2000，38（1）：15?33.

[2] DEPOORTERE V，CANT J，VAN DEN BOSCH B，et al. Effi?cient pedestrian detection：a test case for svm based categoriza?tion [C]// Proceedings of Workshop on Cognitive Vision. [S.l.]：[s.n.] 2002：1241?1248.

[3] VIOLA P，JONES M J. Robust real?time face detection [J]. Inter?national Journal of Computer Vision，2004，57（2）：137?154.

[4] DALAL N，TRIGGS B. Histograms of oriented gradients for hu?man detection [C]// Computer Vision and Pattern Recognition.Montbonnot：[s.n.]，2005：886?893.

[5] FELZENSZWALB P Fl. Object detection with discriminativelytrained part ? based models [J]. IEEE Transactions on PatternAnalysis and Machine Intelligence，2010，32（9）：1627?1645.

[6] DOLLáR P，WOJEK C，SCHIELE B，et al. Pedestrian detec?tion：A benchmark [C]// Proceedings of IEEE Conference onComputer Vision and Pattern Recognition. Miami，FL，USA：IEEE，2009：304?311.

[7] PAN S J，YANG Q. A survey on transfer learning [J]. IEEETransactions on Knowledge and Data Engineering，2010，22（10）：1345?1359.

[8] URIBE D. Domain adaptation in sentiment classification [C]//Proceedings of 2010 Ninth International Conference on MachineLearning and Applications. [S.l.]：ICMLA，2010：111?121.

[9] ZHUANG F. Concept learning for cross?domain text classifica?tion：a general probabilistic framework [C]// Proceedings of theTwenty?Third international joint conference on Artificial Intelli?gence. [S.l.]：[s.n.]，2013：654?661.

[10] GOPALAN R，LI R，CHELLAPPA R. Domain adaptation forobject recognition：An unsupervised approach [C]// Procdeedingsof 2011 IEEE International Conference on Computer Vision.[S.l.]：ICCV，2011：612?634.

[11] JHUO I H. Robust visual domain adaptation with low?rank re?construction [C]// Proceedings of 2012 IEEE Conference onComputer Vision and Pattern Recognition. [S.l.]： CVPR，2012：6247924.

[12] 于立萍，唐焕玲.基于分类一致性的迁移学习及其在行人检测中的应用[J].山东大学学报：工学版，2013，43（4）：26?31.

[13] WANG M，WANG X. Automatic adaptation of a generic pe?destrian detector to a specific traffic scene [C]// Proceedingsof 2011 IEEE Conference on Computer Vision and PatternRecognition. [S.l.]：CVPR，2011：5995698.

[14] WANG Meng，LI W，WANG X. Transferring a generic pedestriandetector towards specific scenes [C]// Proceedings of 2012IEEE Conference on Computer Vision and Pattern Recognition（CVPR）. Providence，RI USA：IEEE，2012：3274?3281.

[15] WANG X，WANG M，LI W. Scene?specific pedestrian detec?tion for static video surveillance [J]. IEEE Trans on PAMI，2014，36（2）：361?374.

[16] MUNDER S，GAVRILA DM. An experimental study on pedes?trian classification [J]. IEEE Transactions on Pattern Analysisand Machine Intelligence，2006，28（11）：1863?1868.

[17] ESS A，LEIBE B，VAN GOOL L，et al. Depth and appearancefor mobile scene analysis [C]// Proceedings of 2007 IEEE11th International Conference on Computer Vision. [S.l.]：IEEE，2007：1?5.

[18] OVERETT G，PETERSSON L，BREWER N，et al. A newpedestrian dataset for supervised learning [C]// 2008 IEEE In?telligent Vehicles Symposium. [S.l.]：IEEE，2008：123?128.

[19] ENZWEILER M，GAVRILA D M. Monocular pedestrian de?tection： Survey and experiments [J]. IEEE Transactions onPattern Analysis and Machine Intelligence，2009，31（12）：2179?2195. [10.1109/TPAMI.2008.260].

[20] DAI Wen?yuan，YANG Qiang，XUE Gui?rong，et al. Boostingfor transfer learning [C]// Proceedings of the 24th internationalConference on Machine Learning. [S.l.]：ACM，2007：234 ?239.

[21] LIANG F. A sparse coding based transfer learning frameworkfor pedestrian detection [C]// Proceedings of Advances in mul?timedia modeling. [S.l.]：Springer. 2013：272?282.

作者简介：陈骏龙（1990—），男，江苏扬州人，硕士。主要研究方向为模式识别、图像处理。