一种基于标签自提纯的深度学习方法技术

技术编号：17249321 阅读：55 留言：0更新日期：2018-02-11 07:42

本发明专利技术公开了一种基于标签自提纯的深度学习方法，其整体步骤为：构建大规模的带有标签噪声的真实条件下的人脸数据集；使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型；使用训练得到的深度人脸识别模型对数据集进行提取特征操作；利用提纯算法迭代地对数据集进行提纯操作；根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。本发明专利技术可以利用大规模带有标签噪声的人脸数据集，进而利用无监督的提纯方法迭代地进行数据的自提纯，然后将提纯后的数据用于构建大规模的数据集，从而在构建了一个大规模数据集的基础上可以训练得到具有理想精度的深度人脸识别模型进行相关的任务或应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于标签自提纯的深度学习方法
本专利技术涉及一种学习方法，尤其涉及一种基于标签自提纯的深度学习方法。
技术介绍
基于卷积神经网络的深度人脸识别方法已经成为人脸识别领域的最有效的方法。但是这种方法严重依赖于大规模且标签精确的人脸数据集，而大规模的干净数据是很难获取的；同时，带有标签噪声的大规模数据集是比较方便获取的，但是直接使用这种带有标签噪声的数据进行模型的训练并不能得到性能满意的深度模型。因此，如何有效利用大规模的标签噪声数据进行模型的训练是一个亟待解决的问题。目前，基于深度学习的标签噪声数据学习方法主要有：1)标签噪声鲁棒算法：设计新型损失函数来对标签噪声数据进行直接训练，从而直接利用大规模标签噪声数据训练相关模型。该方法仍然会受到标签噪声数据的影响，并且这种方法只是在防止噪声标签过拟合时作用明显，另外当标签噪声数据在整个训练集中所占比例较高时，算法的性能并不能达到理想要求。2)基于半监督的标签传播算法：利用正确的标签去分类未标注或者标注错误的样本以此来进行标签噪声样本的处理，进而将处理后的数据进行模型的训练。但是这种方法在实际应用中需要计算成对样本间的距...
一种基于标签自提纯的深度学习方法

【技术保护点】
一种基于标签自提纯的深度学习方法，其特征在于：所述方法的整体步骤为：步骤一、构建大规模的带有标签噪声的真实条件下的人脸数据集；步骤二、使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型；步骤三、使用训练得到的深度人脸识别模型对数据集进行提取特征操作；步骤四、利用提纯算法迭代地对数据集进行提纯操作；步骤五、根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。

【技术特征摘要】
1.一种基于标签自提纯的深度学习方法，其特征在于：所述方法的整体步骤为：步骤一、构建大规模的带有标签噪声的真实条件下的人脸数据集；步骤二、使用小规模的干净数据集训练深度神经网络得到深度人脸识别模型；步骤三、使用训练得到的深度人脸识别模型对数据集进行提取特征操作；步骤四、利用提纯算法迭代地对数据集进行提纯操作；步骤五、根据提纯后的数据集的测试结果获得最终的提纯后的研究用数据集。2.根据权利要求1所述的基于标签自提纯的深度学习方法，其特征在于：所述步骤一中构建人脸数据集的方法至少包括以下一种：Ⅰ、使用爬取手段直接从互联网上爬取数据；Ⅱ、利用相机或者其他拍摄设备获取数据；Ⅲ、使用上述两个方法直接或者间接获取数据。3.根据权利要求1所述的基于标签自提纯的深度学习方法，其特征在于：所述步骤二中得到深度人脸识别模型的具体方法为：a、对小规模的具有精确标签的人脸数据集进行五点对齐预处理，并且要保证数据的规模；b、使用深度卷积神经网络进行模型的训练；c、将训练得到的深度人脸识别模型在一些经典测试集上进行测试，观察测试所得正确...

【专利技术属性】
技术研发人员：马文亚，刘昕，袁基睿，朱鹏飞，山世光，
申请(专利权)人：中科视拓北京科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人