面向有标记噪声表观年龄数据库的深度网络迁移学习方法技术

技术编号:19746070 阅读:28 留言:0更新日期:2018-12-12 04:53
本发明专利技术公开了一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法。将表观年龄数据库随机按照预设比例分为两部分,一部分是训练集,另一部分是验证集,训练集所占的比例高于验证集所占的比例。从训练集中随机抽取少量数据,重复n次,得到n个子训练集,训练集中剩下的数据所组成的集合,记为数据集A。根据迁移学习方法,对n个子训练集进行深度学习得到n个分类模型,之后利用n个分类模型去识别数据集A。本发明专利技术公开的面向有标记噪声表观年龄数据库的深度网络迁移学习方法,使得在进行表观年龄数据库减弱标记噪声时得到精准度较高的表观年龄数据库,能够有效减弱标记噪声对于实验结果的影响,使其结果更具可信度。

【技术实现步骤摘要】
面向有标记噪声表观年龄数据库的深度网络迁移学习方法
本专利技术涉及一种面向有标记噪声表观年龄数据库的方法,特别是涉及一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法。
技术介绍
一个人的生理年龄是从出生那一刻算起,每度过一年的时光,就要在生理年龄上添加一岁,这表明生理年龄是不会受外界环境影响而发生改变的。但在表观年龄数据库中,这些表观年龄与一个人的修养、责任、阅历和心理是联系在一起的,而每一个人在这些方面表现的程度也有所差异,所以当对一个人的年龄依凭外观做判断的时候,就会产生和生理年龄之间的差距。这里,将由人眼依据外观对人的年龄进行标注得到的数据库称为表观年龄数据库。在进行表观年龄数据标注的过程中,可能是采用一人标注,也可能是采用多人标注,按照少数服从多数的原则,但并不能避免人眼判断出来的年龄与其生理年龄之间误差的出现,这些误差会给有特定用途的年龄数据库带来一定的噪声。这里,把这种误差带来的噪声叫做标记噪声。如果对含有标记噪声的表观年龄数据库不进行一定程度上的处理,那么这样的年龄数据库直接使用的话就会使得到的结果含有一定的误差,精度较低。在数据库领域有很多成熟的数据处理技术,但是,对于上述这种由于人的主观判断因素所造成的数据存在噪声的问题,这些技术并不能解决这项问题。另外,不止在表观年龄数据库中存在标记噪声,在其他方面的数据中依旧有不同程度不同形式的噪声存在,目前没有通用且效果好的方法完全减弱噪声。基于时间或人力的考虑,一般情况下,会假设原始数据本身是纯净的,而忽视原始数据中的噪声问题。在这样的初始假设下,拿这些数据做实验得出的结果毫无疑问是不合格的
技术实现思路
本专利技术的目的在于面向表观年龄数据库的标记噪声,提高表观年龄数据库的纯净度,提出一种面向有标记噪声的表观年龄数据库的深度网络迁移学习方法,该方法在迁移学习思想的影响下利用深度网络来减弱表观年龄数据库中存在的标记噪声,能够有效提高表观年龄数据库中数据的纯净度,使得用表观年龄数据库做实验得到结果的准确度有所提高。为了达到上述目的,本专利技术采用的技术方案如下:一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法,具体步骤如下:(1)、将表观年龄数据库随机按照预设比例分为两部分,一部分是训练集,另一部分是验证集,训练集所占的比例大于验证集所占的比例;(2)、从训练集中随机抽取少量的数据,重复n次,得到n个子训练集,记为A1、A2、……、An。训练集中剩下的数据所组成的集合,记为数据集A;(3)、根据迁移学习方法,对n个子训练集进行深度学习得到n个分类模型M1、M2、……、Mn,之后利用n个分类模型M1、M2、……、Mn去识别数据集A;(4)、将步骤(3)中识别正确的样本数据从数据集A中移除,加入到对应的分类模型的训练集中,使之变成n个新的数据集,将n个新的数据集进行深度学习得到分类模型M11、M22、……、Mnn,再利用分类模型M11、M22、……、Mnn去识别数据集A;(5)、循环重复进行步骤(4);(6)、当对数据A的识别准确率上下波动范围为[0,0.01]时,则停止循环过程,反之返回步骤(5);(7)、停止循环过程后,将数据集A中识别错误的数据认定为数据集B,根据投票法的方法对数据集B重新进行标签标注;(8)、将重新标记后的样本数据与n个子训练集中的所有数据重新组合成新的表观年龄数据库。该表观年龄数据库就是减弱了标记噪声的表观年龄数据库。在上述步骤(3)中的根据迁移学习方法进行深度学习,是本专利技术中最重要的一部分,就是不需要大量数据,在已经存在的网络的基础上修改最后一层全连接层,使其重新学习,其具体步骤如下:(1)、基础网络的选定:采用的基础网络为VGG-Face:VGG-Face是一个已经开源训练好的网络结构,含有具体的模型参数,在该网络的基础上针对年龄识别使用特定的训练数据进行微调;(2)、数据准备:每一个深度学习的框架都有其特定的数据格式,开始迁移学习前,必须将选择的数据转化成该框架可以识别的格式,这里选择Caffe框架,格式为LMDB;(3)、训练网络:选择框架模型,修改相应的网络结构配置文件,比如说修改数据层的输入、修改最后全连接层以及根据模型输出的类别数修改softmax分类器层;(4)、模型获得:在VGG-Face网络结构根据迁移学习方法进行微调得到的新模型。在上述步骤(3)中的利用n个分类模型M1、M2、……、Mn去识别数据集A的方法,就是n个分类模型M1、M2、……、Mn对同一个数据进行测试,然后按照取最大概率方法给出待测试数据的结果以及该结果是由哪个分类模型给出,其具体步骤如下:(1)、根据迁移学习方法,对n个子训练集进行深度学习得到n个分类模型M1、M2、……、Mn;(2)、n个分类模型M1、M2、……、Mn对同一个数据进行测试,并分别得到该数据的年龄所属类别以及相应概率;(3)、根据取最大概率方法,给出该数据的年龄最终所属类别,以及最大概率是由哪一个分类模型给出。在上述步骤(7)中的根据投票法方法对数据集B重新进行标签标注的方法,就是利用循环过程结束后的n个分类模型对数据集B进行测试,然后按照投票法方法,取支持度最大的所属类别,给出待测试数据的结果并修改其标签,其具体步骤如下:(1)、利用循环过程结束后的n个分类模型对数据集B进行测试,得到n个年龄类别和n个对应年龄类别的概率;(2)、统计属于同一个年龄类别的数量,以及计算同一个年龄类别概率之和,并计算出平均概率;(3)、若平均概率高于0.70,则认为该数据属于此年龄类别,然后依据此结果结合人眼的视觉效果对该数据进行标签修改。与现有技术相比,本专利技术方法具有如下优点:1、利用迁移学习的思想,可以有效利用小数据,也能更好地提取特征,使得识别结果准确度增加。2、采用多个子分类模型,使得识别结果的可靠性增加。3、在修改标注标签的时候,并不是完全依赖人眼的视觉效果,利用统计平均的思想,使得修改后的标签更具说服力。4、重复循环过程,有助于提高识别准确度。上面四个优点,使得在进行表观年龄数据库减弱标记噪声时得到精准度较高的表观年龄数据库,能够有效减弱标记噪声对于实验结果的影响,使其结果更具可信度。附图说明图1是本专利技术优选实施例的流程框图。图2是五张表观年龄数据库中生理年龄与所属类别标签相同的样本的示意图。图3是五张表观年龄数据库中生理年龄与所属类别标签不同的样本的示意图。图4是每一次循环后的表观年龄数据库的训练集的年龄识别率示意图。图5是用于测试的数据集中的部分数据的示意图。具体实施方式本专利技术公开了一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法,下面结合优选实施例,对本专利技术的具体实施方式作进一步描述。本专利技术进行的仿真实验是在CPU为3.6GHz、内存为15.5G的PC测试平台上编程实现。如图1所示,本专利技术是一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法,具体步骤如下:(1)、将表观年龄数据库随机按照预设比例分为两部分,一部分是训练集,另一部分是验证集,训练集所占的比例大于验证集所占的比例;(2)、从训练集中随机抽取少量数据,重复n次,得到n个子训练集,记为A1、A2、……、An。训练集中剩下的数据所组成的集合,记为数据集A;(3)、根据迁移学习方法,对n个子本文档来自技高网
...

【技术保护点】
1.一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法,其特征在于,具体步骤如下:(1)、将表观年龄数据库随机按照预设比例分为两部分,一部分是训练集,另一部分是验证集,训练集所占的比例大于验证集所占的比例;(2)、从训练集中随机抽取少量数据,重复n次,得到n个子训练集,记为A1、A2、……、An,训练集中剩下的数据所组成的集合,记为数据集A;(3)、根据迁移学习方法,对n个子训练集进行深度学习得到n个分类模型M1、M2、……、Mn,之后利用n个分类模型M1、M2、……、Mn去识别数据集A;(4)、将步骤(3)中识别正确的样本数据从数据集A中移除,加入到对应的分类模型的训练集中,使之变成n个新的数据集;将n个新的数据集进行深度学习得到分类模型M11、M22、……、Mnn,再利用分类模型M11、M22、……、Mnn去识别数据集A;(5)、循环重复进行步骤(4);(6)、当对数据A的识别准确率上下波动范围为[0,0.01]时,则停止循环过程,反之返回步骤(5);(7)、停止循环过程后,将数据集A中识别错误的数据认定为数据集B,根据投票法方法对数据集B重新进行标签标注;(8)、将重新标记后的样本数据与n个子训练集中的所有数据重新组合成新的表观年龄数据库。...

【技术特征摘要】
1.一种面向有标记噪声表观年龄数据库的深度网络迁移学习方法,其特征在于,具体步骤如下:(1)、将表观年龄数据库随机按照预设比例分为两部分,一部分是训练集,另一部分是验证集,训练集所占的比例大于验证集所占的比例;(2)、从训练集中随机抽取少量数据,重复n次,得到n个子训练集,记为A1、A2、……、An,训练集中剩下的数据所组成的集合,记为数据集A;(3)、根据迁移学习方法,对n个子训练集进行深度学习得到n个分类模型M1、M2、……、Mn,之后利用n个分类模型M1、M2、……、Mn去识别数据集A;(4)、将步骤(3)中识别正确的样本数据从数据集A中移除,加入到对应的分类模型的训练集中,使之变成n个新的数据集;将n个新的数据集进行深度学习得到分类模型M11、M22、……、Mnn,再利用分类模型M11、M22、……、Mnn去识别数据集A;(5)、循环重复进行步骤(4);(6)、当对数据A的识别准确率上下波动范围为[0,0.01]时,则停止循环过程,反之返回步骤(5);(7)、停止循环过程后,将数据集A中识别错误的数据认定为数据集B,根据投票法方法对数据集B重新进行标签标注;(8)、将重新标记后的样本数据与n个子训练集中的所有数据重新组合成新的表观年龄数据库。2.根据权利要求1所述的面向有标记噪声表观年龄数据库的深度网络迁移学习方法,其特征在于,所述步骤(3)中的利用n个分类模型M1、M2、……、Mn去识别数据集A的方法,就是n个分类模...

【专利技术属性】
技术研发人员:王结太
申请(专利权)人:奕通信息科技上海股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1