深度卷积神经网络初始化和训练方法、装置、介质及设备制造方法及图纸

技术编号:28538361 阅读:13 留言:0更新日期:2021-05-21 09:02
本发明专利技术公开了一种深度卷积神经网络初始化和训练方法、装置、介质及设备,属于模式识别领域。该初始化方法包括:获取DCNN、与DCNN对应的简易网络和初始训练集,初始训练集包括多个类别的样本,样本上设置有表示该样本类别的标签;使用初始训练集训练简易网络;将初始训练集的样本输入训练好的简易网络,得到每个样本在简易网络的特征层或分类层的输出;将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出,得到更新后的训练集;使用更新后的训练集预训练DCNN,完成DCNN的初始化。本发明专利技术能够使得任何结构的不易收敛的DCNN获得更好的初始化,使其更易收敛,加快训练速度。

【技术实现步骤摘要】
深度卷积神经网络初始化和训练方法、装置、介质及设备
本专利技术涉及模式识别领域,特别是指一种深度卷积神经网络初始化和训练方法、装置、介质及设备。
技术介绍
卷积神经网络(ConvolutionalNeuralNetwork,CNN),也简称为网络,是一类模式识别方法。该方法旨在使用卷积的方法对图像等数据进行表征量化,进而完成分类或是回归任务。该方法目前在图像分类、语音识别等方向表现出了优异的性能。近年来随着深度学习的发展,为了显著的提升模型准确率,网络的计算量和参数随之大幅增加,这种巨大的网络模型也称为深度卷积神经网络(DeepConvolutionalNeuralNetwork,DCNN)模型。当DCNN应用于图像识别训练时,由于网络层数很多,训练会十分困难不易收敛,需要一种合适的初始化来保证训练过程的稳定。现有技术为基于方差不变性的高斯分布初始化方法,例如Xavierinitialization,kaiminginitialization等,此类方法假设特征图的神经元间是独立同分布的,在参数初始化时,保证网络前馈各层神经元间的方差不会变化过大,反馈时各层神经元间的梯度不会过大,进而使得网络在训练时不会出现梯度发散和梯度消失。但是,现有的基于方差不变性的高斯分布初始化方法并不能很好的解决训练会困难不易收敛的问题,即便使用BatchNorm收敛速度也比较慢。尤其是在复杂的神经网络结构中(例如googlenet,inception_resnet,mobilenet等),现有初始化技术并不能很好解决训练困难的问题,需要凭借经验手动调节分支层高斯方差来获得更合适的初始化分布,工作量巨大且不能获得稳定的结果。
技术实现思路
为解决上述技术问题,本专利技术提供一种深度卷积神经网络初始化和训练方法、装置、介质及设备,本专利技术能够使得任何结构的不易收敛的DCNN获得更好的初始化,使其更易收敛,加快训练速度。本专利技术提供技术方案如下:第一方面,本专利技术提供一种深度卷积神经网络初始化方法,所述方法包括:获取DCNN、与DCNN对应的简易网络和初始训练集,所述初始训练集包括多个类别的样本,所述样本上设置有表示该样本类别的标签;使用初始训练集训练所述简易网络;将初始训练集的样本输入训练好的简易网络,得到每个样本在简易网络的特征层或分类层的输出;将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出,得到更新后的训练集;使用更新后的训练集预训练DCNN,完成DCNN的初始化。进一步的,使用初始训练集训练所述简易网络时,采用的是多分类交叉熵损失函数,使用更新后的训练集预训练DCNN时,采用的是欧几里得损失函数。进一步的,所述DCNN和简易网络用于人脸识别,所述初始训练集的样本通过如下方法得到:对人脸图像进行人脸检测和关键点定位,得到人脸区域和人脸关键点,所述人脸关键点包括左眼坐标和右眼坐标;通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置;将人脸区域归一化为指定的大小并进行灰度化,得到样本;为样本设置表示该样本类别的标签。第二方面,本专利技术提供一种与第一方面的深度卷积神经网络初始化方法对应的深度卷积神经网络初始化装置,所述装置包括:获取模块,用于获取DCNN、与DCNN对应的简易网络和初始训练集,所述初始训练集包括多个类别的样本,所述样本上设置有表示该样本类别的标签;简易网络训练模块,用于使用初始训练集训练所述简易网络;特征提取模块,用于将初始训练集的样本输入训练好的简易网络,得到每个样本在简易网络的特征层或分类层的输出;标签替换模块,用于将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出,得到更新后的训练集;初始化模块,用于使用更新后的训练集预训练DCNN,完成DCNN的初始化。进一步的,所述简易网络训练模块中,使用初始训练集训练所述简易网络时,采用的是多分类交叉熵损失函数,所述初始化模块中,使用更新后的训练集预训练DCNN时,采用的是欧几里得损失函数。进一步的,所述DCNN和简易网络用于人脸识别,所述初始训练集的样本通过如下单元得到:人脸检测和关键点定位单元,用于对人脸图像进行人脸检测和关键点定位,得到人脸区域和人脸关键点,所述人脸关键点包括左眼坐标和右眼坐标;对齐单元,用于通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置;归一化和灰度化单元,用于将人脸区域归一化为指定的大小并进行灰度化,得到样本;标签设置单元,用于为样本设置表示该样本类别的标签。第三方面,本专利技术提供一种用于深度卷积神经网络初始化的计算机可读存储介质,包括用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括第一方面所述的深度卷积神经网络初始化方法的步骤。第四方面,本专利技术提供一种用于深度卷积神经网络初始化的设备,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现第一方面所述的深度卷积神经网络初始化方法的步骤。第五方面,本专利技术提供一种深度卷积神经网络训练方法,所述方法包括:使用第一方面所述的深度卷积神经网络初始化方法对DCNN进行初始化;使用所述初始训练集训练所述初始化后的DCNN。第六方面,本专利技术提供一种与第五方面的深度卷积神经网络训练方法对应的深度卷积神经网络训练装置,所述装置包括:初始化模块,用于使用第二方面所述的深度卷积神经网络初始化装置对DCNN进行初始化;训练模块,用于使用所述初始训练集训练所述初始化后的DCNN。第七方面,本专利技术提供一种用于深度卷积神经网络训练的计算机可读存储介质,包括用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括第五方面所述的深度卷积神经网络训练方法的步骤。第八方面,本专利技术提供一种用于深度卷积神经网络训练的设备,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现第五方面所述的深度卷积神经网络训练方法的步骤。本专利技术具有以下有益效果:本专利技术使用简易网络的输出代替原有的类别标签,并使用这种类别标签的数据集预训练DCNN,能够使得任何结构的不易收敛的DCNN获得更好的初始化,使其更易收敛,加快训练速度。附图说明图1为本专利技术的深度卷积神经网络初始化方法流程图;图2为本专利技术的深度卷积神经网络初始化方法示意图;图3为人脸样本的获取过程;图4为本专利技术的深度卷积神经网络初始化装置示意图;图5为本专利技术的深度卷积神经网络训练方法流程图;图6为本专利技术的深度卷积神经网络训练装置示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,本文档来自技高网
...

【技术保护点】
1.一种深度卷积神经网络初始化方法,其特征在于,所述方法包括:/n获取DCNN、与DCNN对应的简易网络和初始训练集,所述初始训练集包括多个类别的样本,所述样本上设置有表示该样本类别的标签;/n使用初始训练集训练所述简易网络;/n将初始训练集的样本输入训练好的简易网络,得到每个样本在简易网络的特征层或分类层的输出;/n将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出,得到更新后的训练集;/n使用更新后的训练集预训练DCNN,完成DCNN的初始化。/n

【技术特征摘要】
1.一种深度卷积神经网络初始化方法,其特征在于,所述方法包括:
获取DCNN、与DCNN对应的简易网络和初始训练集,所述初始训练集包括多个类别的样本,所述样本上设置有表示该样本类别的标签;
使用初始训练集训练所述简易网络;
将初始训练集的样本输入训练好的简易网络,得到每个样本在简易网络的特征层或分类层的输出;
将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出,得到更新后的训练集;
使用更新后的训练集预训练DCNN,完成DCNN的初始化。


2.根据权利要求1所述的深度卷积神经网络初始化方法,其特征在于,使用初始训练集训练所述简易网络时,采用的是多分类交叉熵损失函数,使用更新后的训练集预训练DCNN时,采用的是欧几里得损失函数。


3.根据权利要求1或2所述的深度卷积神经网络初始化方法,其特征在于,所述DCNN和简易网络用于人脸识别,所述初始训练集的样本通过如下方法得到:
对人脸图像进行人脸检测和关键点定位,得到人脸区域和人脸关键点,所述人脸关键点包括左眼坐标和右眼坐标;
通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置;
将人脸区域归一化为指定的大小并进行灰度化,得到样本;
为样本设置表示该样本类别的标签。


4.一种深度卷积神经网络初始化装置,其特征在于,所述装置包括:
获取模块,用于获取DCNN、与DCNN对应的简易网络和初始训练集,所述初始训练集包括多个类别的样本,所述样本上设置有表示该样本类别的标签;
简易网络训练模块,用于使用初始训练集训练所述简易网络;
特征提取模块,用于将初始训练集的样本输入训练好的简易网络,得到每个样本在简易网络的特征层或分类层的输出;
标签替换模块,用于将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出,得到更新后的训练集;
初始化模块,用于使用更新后的训练集预训练...

【专利技术属性】
技术研发人员:周军丁松王洋江武明
申请(专利权)人:北京眼神智能科技有限公司北京眼神科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1