本发明专利技术公开了一种大规模人脸模式分析样本库的构建方法和装置,方法包括:通过网络批量获取图片;采用Viola-Jones人脸检测算法对获取的图片进行人脸检测和筛选;基于人脸比例对包含人脸的图片进行归一化处理;采用PCA+LDA算法对裁剪的图片进行性别分类;利用图片灰度直方图的相似度比对以剔除重复的图片;根据需要对人脸样本库进行二次筛选和人工标记,然后储存至本地存储器。装置包括网络通信接口、显示设备、输入设备、存储器以及处理器,其中处理器执行所述的大规模人脸模式分析样本库的构建方法。本发明专利技术较大程度上降低了科研人员搭建用于人脸模式分析的人脸样本库的劳动强度,提高了样本库的搭建速度,且本发明专利技术亦可用于其它模式识别相关科研的样本库搭建。
【技术实现步骤摘要】
本专利技术涉及一种大规模人脸模式分析样本库的构建方法和装置,属于计算机图像处理以及模式识别
技术介绍
在大数据和人工智能的背景下,如何获取、存储和处理规模庞大的数据是个有很强挑战性的问题。在研究智能算法和工程实践的过程中,实验样本是训练和评测智能算法的重要工具,实验样本的规模甚至比算法模型的精妙设计更为重要。目前相关领域的科研人员和工程师们普遍手工建立人脸库,其过程耗时耗力,严重限制了样本库的规模和扩展。当今用于人脸模式分析的样本库的规模普遍偏小。一方面,规模过小的样本库带来的问题在于,不能充分训练算法并且实验结果不够客观可靠。另一方面,随着深度网络理论的提出及其成功应用于人脸识别等领域,亟待解决的问题是如何才能够建立大规模有标记和无标记人脸模式分析样本库去充分拟合深度模型。因此存在简单易实现且效率较高的用于自动获取人脸样本的需求,需要减少实验人员在建立样本库时的主观介入,使样本库的建立更客观更科学。
技术实现思路
为了解决上述问题,本文结合图像处理和模式识别技术提供一种大规模人脸模式分析样本库的构建方法和装置,通过构建自动样本收集和处理的流程框架,将样本库建立过程中大部分的工作量交由计算机自动处理,从而最大程度上避免科研人员花费大量的时间和精力在繁琐的重复性工作上。本专利技术采用的技术方案为:一种大规模人脸模式分析样本库的构建方法,包括如下步骤:A、通过本地和/或远程网络批量获取图片;B、采用基于Harr-like特征的Viola-Jones人脸检测算法对获取的图片进行人脸检测并进行筛选,保留包含人脸的图片;C、基于人脸比例对包含人脸的图片进行自适应图片分辨率的剪裁,并使包含人脸的图片归一化到预设的尺寸;D、采用主成分分析法和线性判别分析方法融合的算法对裁剪的图片进行性别分类以得到不同性别的人脸图片库;E、分别在不同性别的人脸图片库中,对图片进行灰度直方图的相似度比对以确定重复的图片,然后删除重复的图片,并且输出建立好的人脸样本库;F、根据需要对建立好的人脸样本库进行二次筛选和人工标记,然后储存适用的人脸样本库至本地存储器。进一步,所述步骤A包括:利用网络爬虫脚本从本地和/或远程网络批量获取图片,其中基于广度优先策略使网络爬虫执行路径检索,在预设的网络路径抓取所有与统一资源定位符(URL)所对应的图片,从而控制抓取效率和图片的来源。进一步,所述步骤C包括:在包含人脸的图片上会生成矩形标定框;根据图片中的人脸尺寸和位置来设置标定框的位置、宽度和高度;根据标定框裁剪图片。优选地,所述步骤C还包括:在预设数量的人脸图片中计算眉毛到下嘴唇间的垂直距离与眉毛到头顶距离的垂直距离的比值以及眉毛到下嘴唇的垂直距离与下嘴唇到下巴的垂直距离的比值;经过统计分析得出适用的比值数据,用于确定所述矩形标定框的裁剪系数以实现标定框的缩放。进一步,所述步骤D包括:在采用主成分分析法进行数据降维处理过程中,维数是由的已知性别图片的训练样本集的协方差矩阵的97%以上的矩阵特征值的个数来确定。进一步,所述步骤E包括:分别计算基准图片和待比对图片的灰度直方图;分别在基准图片和待比对图片的灰度直方图中获取对应的灰度级像素的频率值,并且计算基准图片和待比对图片的灰度级像素的频率值之间的巴氏系数;如果计算的巴氏系数值超过预设的阀值,则认定基准图片和待比对图片为重复图片。优选地,所述的大规模人脸模式分析样本库的构建方法,其特征在于所述方法还包括:在采用主成分分析法和线性判别分析方法融合的算法对裁剪的图片进行性别分类以得到不同性别的人脸图片库之后,对人脸进行校准使人脸处于规范化的位置和姿态。优选地,对人脸进行校准使图像中的人脸处于规范化的位置和姿态的步骤还包括:采用已获取到的包含人脸的图片作为训练集并利用无监督联合校准算法对人脸进行校准。进一步,采用已获取到的包含人脸的图片作为训练样本并利用无监督联合校准算法对人脸进行校准包括:提取训练集的每张图片中每个像素点的SURF特征;对应提取的SURF特征点依次对分布域中每个元素的概率、分布域的熵、似然函数和整体熵进行计算;重复上述步骤并实施迭代计算,从而计算出使得计算的整体熵的值最小的仿射变换矩阵,其中所述仿射变换矩阵包含对训练集的x轴平移、y轴平移、旋转变换、x轴尺度变换以及y轴尺度变换。本专利技术另一方面还提供一种用于构建大规模人脸模式分析样本库的装置,包括:用于获取图片的网络通信接口;用于显示图片的显示设备;用于图片筛选的输入设备;用于储存计算机程序指令和储存图片的存储器;至少一个处理器,其中当所述处理器执行所述指令时,所述计算机程序指令触发处理器执行前述的根据本专利技术方案的大规模人脸模式分析样本库的构建方法。本专利技术的有益效果为:整合和改进现有算法,通过简单易实现且较高效率的方式实现了自动获取大规模的人脸样本并且构建了人脸模式分析样本库;减少了构建人脸模式分析样本库的过程中实验人员的主观介入,使样本库的构建更客观更科学;最大程度利用计算机来自动获取和处理样本,大大降低了人工操作的强度,提升样本素材的获取速度和规模,具体实现80%以上的工作量都交于计算机自动完成,且自动构建样本库的效率为人工操作的10倍以上;根据科研和工程实践中需求的不同,在整个人脸模式分析样本库的构建框架下部分模块是可定制的,比如预处理模块中的人脸校准以及图像分析模块中的性别分类等,通过修改框架中的部分模块,本专利技术亦可用于年龄分析、情绪识别等其它人脸相关的模式识别课题,甚至调整相关模块后可以用于车牌识别、场景识别等课题。附图说明图1所示为根据本专利技术大规模人脸模式分析样本库的构建方法的流程示意图;图2所示为根据本专利技术实施例的构建大规模人脸模式分析样本库的流程框图;图3所示为根据本专利技术实施例的图片预处理示意图;图4所示为根据本专利技术实施例的图片裁剪处理示意图;图5所示为根据本专利技术实施例的图片裁剪处理效果图;图6所示为根据本专利技术实施例的无监督联合校准算法中像素栈的示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。应注意到,根据合法使用和公开人像的协定,需要对附图中涉及的人脸进行局部模糊或遮盖处理,对附图中的人脸进行模糊或遮盖不作为对本专利技术实施例及其技术效果的限制。参照图1,在一个实施例中,根据本专利技术的大规模人脸模式分析样本库的构建方法包括如下步骤:A、通过网络,比如通过本地网络或者远程互联网,自动地获取批量的有可能包含人脸本文档来自技高网...

【技术保护点】
一种大规模人脸模式分析样本库的构建方法,其特征在于包括如下步骤:A、通过本地和/或远程网络批量获取图片;B、采用基于Harr‑like特征的Viola‑Jones人脸检测算法对获取的图片进行人脸检测并进行筛选,保留包含人脸的图片;C、基于人脸比例对包含人脸的图片进行剪裁并使包含人脸的图片归一化到预设的尺寸;D、采用主成分分析法和线性判别分析方法融合的算法对裁剪的图片进行性别分类以得到不同性别的人脸图片库;E、分别在不同性别的人脸图片库中,对图片进行灰度直方图的相似度比对以确定重复的图片,然后删除重复的图片,并且输出建立好的人脸样本库;F、根据需要对建立好的人脸样本库进行二次筛选和人工标记,然后储存适用的人脸样本库至本地存储器。
【技术特征摘要】
1.一种大规模人脸模式分析样本库的构建方法,其特征在于包括如下步骤:
A、通过本地和/或远程网络批量获取图片;
B、采用基于Harr-like特征的Viola-Jones人脸检测算法对获取的图片进行人脸检测并进
行筛选,保留包含人脸的图片;
C、基于人脸比例对包含人脸的图片进行剪裁并使包含人脸的图片归一化到预设的尺寸;
D、采用主成分分析法和线性判别分析方法融合的算法对裁剪的图片进行性别分类以得到不
同性别的人脸图片库;
E、分别在不同性别的人脸图片库中,对图片进行灰度直方图的相似度比对以确定重复的图
片,然后删除重复的图片,并且输出建立好的人脸样本库;
F、根据需要对建立好的人脸样本库进行二次筛选和人工标记,然后储存适用的人脸样本库
至本地存储器。
2.根据权利要求1所述的大规模人脸模式分析样本库的构建方法,其特征在于,所述步骤A
包括:
利用网络爬虫脚本从本地和/或远程网络批量获取图片,其中基于广度优先策略使网络爬虫执
行路径检索,在预设的网络路径抓取所有与统一资源定位符(URL)所对应的图片,从而控制
抓取效率和图片的来源。
3.根据权利要求1所述的大规模人脸模式分析样本库的构建方法,其特征在于,所述步骤C
包括:
在包含人脸的图片上会生成矩形标定框;
根据图片中的人脸尺寸和位置来设置标定框的位置、宽度和高度;
根据标定框裁剪图片。
4.根据权利要求3所述的大规模人脸模式分析样本库的构建方法,其特征在于,所述步骤C
包括:
在预设数量的人脸图片中计算眉毛到下嘴唇的垂直距离与眉毛到头顶距离的垂直距离的比
值,以及眉毛到下嘴唇的垂直距离与下嘴唇到下巴的垂直距离的比值;
经过统计分析得出适用的比值数据,用于确定所述矩形标定框的裁剪系数以实现标定框的缩
放。
5.根据权利要求1所述的大规模人脸模式分析样本库的构建方法,其特征在于,所述步骤D
包括:
在采用主成分分析法进行数据降维处理过程中,维数是由的已知性别图片的训练样本集的协
方差...
【专利技术属性】
技术研发人员:翟懿奎,甘俊英,王斌,彭超,曾军英,
申请(专利权)人:五邑大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。