当前位置: 首页 > 专利查询>东北大学专利>正文

一种面向大规模人脸数据库的快速高效人脸检索方法技术

技术编号:12530383 阅读:112 留言:0更新日期:2015-12-18 01:43
一种面向大规模人脸数据库的快速高效人脸识别方法,针对人脸数据特征库,在相似最近邻检索技术基础上,结合Boosting算法,提出一种增强随机正交敏感哈希算法;在建立人脸库多个哈希表时,对每一维特征的哈希索引阈值进行寻优;建立不同哈希表时,采用Boosting算法,对每一个人的样本赋予权重,通过计算前一个哈希表的类内类间分类误差更新所有训练样本的权重,指导下一个哈希表哈希索引阈值的寻优。从而保证多个哈希表之间形成一种互补的作用效果,尽可能地实现对人脸样本的正确分类,减小人脸样本的错误分类,提高人脸哈希检索的效率和准确率。

【技术实现步骤摘要】

本专利技术涉及人脸识别领域的一种面向大规模人脸数据库的快速高效人脸识别方 法。
技术介绍
随着高性能计算机的快速发展,图像采集和加工能力得到提高,人脸识别技术也 因此有了突飞猛进的发展,逐渐步入了真正的自动人脸识别阶段。人脸特征匹配是人脸识 别的关键环节,针对传统的人脸识别检索技术在面对海量人脸数据库匹配时,通常会面临 "维数灾难"而导致匹配的速度慢,识别率低的问题。 上述问题属于海量数据检索问题。目前,KD树算法可以用来提高检索的速度。此 外,如VP树,RP树,M树,Quad树,R树等树形结构的方法也相继被提出和应用到最近邻检索 问题中。但是。这些算法的空间复杂度或时间复杂度,都是以数据的维度作为指数的指数 级别的复杂度。当数据维度比较大的时候,这些方法的检索效率甚至于不如线性检索。为 了解决上述算法的局限性,而且,考虑到高维数据的"维数灾难",最近,越来越多的哈希算 法被提出并用于解决相似最近邻搜索问题。 局部敏感哈希算法(LSH)是Pitor Indyk等人首次提出的哈希算法,它是一种基 于随机投影的哈希算法,该算法基本思想就是利用哈希函数值保证相似的数据点以很高的 概率发生碰撞,进而能够被检测到。为了增加相似的数据点哈希碰撞的可能性,即相似的数 据点具有相同的哈希编码,LSH需要许多随机投影向量来建立多个哈希表,这样便会导致存 储空间增加,除此之外,LSH哈希函数的随机映射也导致其在高维核数据中检索的效果并不 好。 为了充分利用数据结构的信息,很多基于学习的哈希算法陆续被提出。例如,在 2011年的CVPR会议上,Yunchao Gong等人提出了基于主成分分析的随机正交哈希算法(缩 写为PCA_RR)。PCA_RR首先用PCA对原始数据进行降维,然后用随机正交变换处理PCA降 维后得到的数据,可以很好地平衡不同PCA主成分方向的方差。因此,PCA_RR降低了量化 误差,弥补了基于随机投影的哈希算法不足。当哈希码长度较短时,PCA_RR拥有比较不错 的效果,但是,当哈希编码的维数足够高时,其检索的效果趋于未压缩时的效果。 上述提到的哈希算法为海量人脸识别检索问题提供了思路,郭晓光利用SimHash 算法在ORL人脸库上进行了仿真实验,得到的人脸识别率与检索的效率不是很理想。我们 认为,这主要是由于这些算法在高维数据索引的过程中,都是假设原始数据在高维空间中 是以0为中心均匀分布的,因此对高维数据建立哈希索引时均选取0作为阈值。但是,实际 上阈值为〇分类性能可能不是最优的。同时多个哈希表的哈希索引的建立是孤立的。
技术实现思路
本专利技术就是针对上述问题,提供一种面向大规模人脸数据库的快速高效人脸识别 方法。 为了实现上述目的,本专利技术采用如下技术方案,针对人脸数据特征库,在相似最近 邻检索技术基础上,结合Boosting算法,提出一种增强随机正交敏感哈希算法。在建立 人脸库多个哈希表时,对每一维特征的哈希索引阈值进行寻优。建立不同哈希表时,采用 Boosting算法,对每一个人的样本赋予权重,通过计算前一个哈希表的类内类间分类误差 更新所有训练样本的权重,指导下一个哈希表哈希索引阈值的寻优。从而保证多个哈希表 之间形成一种互补的作用效果,尽可能地实现对人脸样本的正确分类,减小人脸样本的错 误分类,提高人脸哈希检索的效率和准确率。 对于给出p个高维人脸特征数据点寻找个不同的 哈希函数,将每个数据…1),哈希降维到一个遲位的哈希编码中:(1) 其中表示第%个哈希函数。对于基于线性投影的敏感哈希算 法,有(2) 经主成分分析计算得到,实现嚴维降维,为阈值。 为平衡PCA降维处理的数据点不同维度的方差,使不同类的数据尽可能地被 分开,同类数据尽可能分在一起,对PCA降维处理得到的数据I屬ff进行正交矩阵变换哈希投影函数式(2)变成式(3) (3) _为符号函数,当'结果为1,当吋结果为0.对高维人脸 特征建立哈希索引时,哈希映射矩阵每一维值阈值二值化时_选取0作为阈值并不合适, .:3? 实际上都有其对应的最优阈值。 为寻找最优阈值,定义目标11?。假设,从目标样本人脸特征选取髮个人脸特征点 来作为训练库中的样本。其中,训练库中的人脸特征包括?类样本,即训练库有个人的 人脸图像,并定义每类样本权重为為" ,初始权重为(4) 对于给定阈值,训练样本总是被分为两本为" 1样本",落在右侧的训练样本为"〇样本"。 定义训练样本的类内平均分类误差,如公式(5)所示: CN 105160295 A ^ 3/丫 贝其中,I3为第繼类加权分类误差,^表示第纖类训练样本落在" 1样本"侧的个数, _表示第纖类训练样本落在"〇样本"侧的个数, (1)、类间平均分类误差的定义 定义训练样本的类间平均分类误差,如公式(7)所示: (2)、训练样本的分类误差的权重定义,如公式(8)所示:其中,Hg表示类内平均分类误差所占的比例,表示类间平均分类误差 所占的比例,定义 (3)、训练样本的平均分类误差定义 定义训练样本的平均分类误差为类内平均分类误差与类间平均分类误差之和,得到如 下公式(9):(9)〇 由式(3 )可知,若依次取所有特征值,则由式(9 )得到 ,当》^时%^最小,此时的最优阈值C即为随机正交哈希算法建立多个哈希表时,某一次哈希索引存在的错误分类的目标样本 特征,再次建立的哈希表可能还不能实现对该错误分类的样本特征的正确分类。这样,便 会造成所建立的多个哈希表对人脸特征的分类性能不具有互补的作用。为此本专利技术借鉴 Boosting算法思想,根据上一个建立的哈希表各类样本分类误差情况对各类样本加权,指 导下一个哈希表索引阈值的寻优,权值为公式(6)中的 对于维特征,每一维都可以得到时按照式(6)得到各个类的分类误差,如式 (11)所示, CN 105160295 A VL 4/丫贝(Il)0 于是得到第纖类的最终分类误差为(12〇 在建立下一个哈希表时,对训练样本的权重进行更新,此时,定义其对应的权重迭 代因子为_,如公式(13)所示:(13)〇 权值更新公式为(14) 这样被错误分类的样本在下一次建表时将得到重视,最优阈值的确定将提高其正确分 类可能性。 其原理如图2所示,当建立第一个哈希表时,可能会出现错误分类的情况,如.类 样本与着类样本分在一起,圈类样本与类样本分在一起,麵类样本被分开。建立第二个 哈希表,增大错误分类的训练样本瀣的权重,从而使施得到正确分类,依次类推,直到建立 个哈希表为止。综合的看,所有的类_画淹金〇在各个哈希表中分别有自己最好的分类 表,实现互补,提高待查库人脸特征与目标库人脸特征匹配的成功率。 本专利技术的具体步骤为。 St印1离线哈希训练。 1、初始化训练样本的权重,如公式(4)所示。 2、对训练库人脸特征置进行PCA建模计算,得到投影向量,,进行人脸特征压缩 计算Γ。J?。 3、For| & ⑴随机产生正交矩阵桑,进行__|%::|计算;(2) 、for (a )、选;$ 所有特征值作为阈值,并对映射矩阵的第囊列二值化,然 后利用姓名标记的信息矩阵^,结合公式(5)(6)求训练样本的类内平均分类误差,公式(7) 求类间平均分类误差,最终由公式(8) (9)求本文档来自技高网
...

【技术保护点】
一种面向大规模人脸数据库的快速高效人脸识别方法,针对人脸数据特征库,在相似最近邻检索技术基础上,结合Boosting算法,提出一种增强随机正交敏感哈希算法;在建立人脸库多个哈希表时,对每一维特征的哈希索引阈值进行寻优;建立不同哈希表时,采用Boosting算法,对每一个人的样本赋予权重,通过计算前一个哈希表的类内类间分类误差更新所有训练样本的权重,指导下一个哈希表哈希索引阈值的寻优;从而保证多个哈希表之间形成一种互补的作用效果,尽可能地实现对人脸样本的正确分类,减小人脸样本的错误分类,提高人脸哈希检索的效率和准确率;其特征是:对于给出个高维人脸特征数据点,对哈希投影函数式(1)为符号函数,当时结果为1,当时结果为0;在高维人脸特征建立哈希索引时,哈希映射矩阵每一维值阈值二值化时选取0作为阈值并不合适,实际上都有其对应的最优阈值;为寻找最优阈值,定义目标:从目标样本人脸特征选取个人脸特征点来作为训练库中的样本;其中,训练库中的人脸特征包括类样本,即训练库有个人的人脸图像,并定义每类样本权重为,初始权重为(2)对于PCA降维处理得到的数据进行正交矩阵变换,中的任意一维,,对于给定阈值,训练样本总是被分为两类;当时为“1样本”,为“0样本”;定义训练样本的类内平均分类误差,如公式(3)所示:(3)(4)其中,为第类加权分类误差,表示第类训练样本落在“1样本”侧的个数,表示第类训练样本落在“0样本”侧的个数,;、类间平均分类误差的定义定义训练样本的类间平均分类误差,如公式(5)所示:(5)(2)、训练样本的分类误差的权重定义,如公式(6)所示:(6)其中,表示类内平均分类误差所占的比例,表示类间平均分类误差所占的比例,定义,;(3)、训练样本的平均分类误差定义定义训练样本的平均分类误差为类内平均分类误差与类间平均分类误差之和,得到如下公式(9):(7)由式(1)可知,若依次取所有特征值(),则由式(7)得到,当时最小,此时的最优阈值即为(8)随机正交哈希算法建立多个哈希表时,某一次哈希索引存在的错误分类的目标样本特征,再次建立的哈希表可能还不能实现对该错误分类的样本特征的正确分类;这样,便会造成所建立的多个哈希表对人脸特征的分类性能不具有互补的作用;为此本专利技术借鉴Boosting算法思想,根据上一个建立的哈希表各类样本分类误差情况对各类样本加权,指导下一个哈希表索引阈值的寻优,权值为公式(4)中的;对于维特征,每一维都可以得到时按照式(4)得到各个类的分类误差,如式(9)所示;(9)于是得到第类的最终分类误差为(10)在建立下一个哈希表时,对训练样本的权重进行更新,此时,定义其对应的权重迭代因子为,如公式(11)所示:(11)权值更新公式为(12)这样被错误分类的样本在下一次建表时将得到重视,最优阈值的确定将提高其正确分类可能性。...

【技术特征摘要】

【专利技术属性】
技术研发人员:贾明兴张战胜
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1