深度卷积神经网络初始化和训练方法、装置、介质及设备制造方法及图纸

技术编号：28538361 阅读：13 留言：0更新日期：2021-05-21 09:02

本发明专利技术公开了一种深度卷积神经网络初始化和训练方法、装置、介质及设备，属于模式识别领域。该初始化方法包括：获取DCNN、与DCNN对应的简易网络和初始训练集，初始训练集包括多个类别的样本，样本上设置有表示该样本类别的标签；使用初始训练集训练简易网络；将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；使用更新后的训练集预训练DCNN，完成DCNN的初始化。本发明专利技术能够使得任何结构的不易收敛的DCNN获得更好的初始化，使其更易收敛，加快训练速度。

全部详细技术资料下载

【技术实现步骤摘要】
深度卷积神经网络初始化和训练方法、装置、介质及设备
本专利技术涉及模式识别领域，特别是指一种深度卷积神经网络初始化和训练方法、装置、介质及设备。
技术介绍
卷积神经网络(ConvolutionalNeuralNetwork，CNN)，也简称为网络，是一类模式识别方法。该方法旨在使用卷积的方法对图像等数据进行表征量化，进而完成分类或是回归任务。该方法目前在图像分类、语音识别等方向表现出了优异的性能。近年来随着深度学习的发展，为了显著的提升模型准确率，网络的计算量和参数随之大幅增加，这种巨大的网络模型也称为深度卷积神经网络(DeepConvolutionalNeuralNetwork，DCNN)模型。当DCNN应用于图像识别训练时，由于网络层数很多，训练会十分困难不易收敛，需要一种合适的初始化来保证训练过程的稳定。现有技术为基于方差不变性的高斯分布初始化方法，例如Xavierinitialization，kaiminginitialization等，此类方法假设特征图的神经元间是独立同分布的，在参数初始化时，保证网络前馈各层神经元间的方差不会变化过大，反馈时各层神经元间的梯度不会过大，进而使得网络在训练时不会出现梯度发散和梯度消失。但是，现有的基于方差不变性的高斯分布初始化方法并不能很好的解决训练会困难不易收敛的问题，即便使用BatchNorm收敛速度也比较慢。尤其是在复杂的神经网络结构中(例如googlenet,inception_resnet，mobilenet等)，现有初始化技术并不能很好解...

【技术保护点】
1.一种深度卷积神经网络初始化方法，其特征在于，所述方法包括：/n获取DCNN、与DCNN对应的简易网络和初始训练集，所述初始训练集包括多个类别的样本，所述样本上设置有表示该样本类别的标签；/n使用初始训练集训练所述简易网络；/n将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；/n将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；/n使用更新后的训练集预训练DCNN，完成DCNN的初始化。/n

【技术特征摘要】
1.一种深度卷积神经网络初始化方法，其特征在于，所述方法包括：
获取DCNN、与DCNN对应的简易网络和初始训练集，所述初始训练集包括多个类别的样本，所述样本上设置有表示该样本类别的标签；
使用初始训练集训练所述简易网络；
将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；
将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；
使用更新后的训练集预训练DCNN，完成DCNN的初始化。

2.根据权利要求1所述的深度卷积神经网络初始化方法，其特征在于，使用初始训练集训练所述简易网络时，采用的是多分类交叉熵损失函数，使用更新后的训练集预训练DCNN时，采用的是欧几里得损失函数。

3.根据权利要求1或2所述的深度卷积神经网络初始化方法，其特征在于，所述DCNN和简易网络用于人脸识别，所述初始训练集的样本通过如下方法得到：
对人脸图像进行人脸检测和关键点定位，得到人脸区域和人脸关键点，所述人脸关键点包括左眼坐标和右眼坐标；
通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置；
将人脸区域归一化为指定的大小并进行灰度化，得到样本；
为样本设置表示该样本类别的标签。

4.一种深度卷积神经网络初始化装置，其特征在于，所述装置包括：
获取模块，用于获取DCNN、与DCNN对应的简易网络和初始训练集，所述初始训练集包括多个类别的样本，所述样本上设置有表示该样本类别的标签；
简易网络训练模块，用于使用初始训练集训练所述简易网络；
特征提取模块，用于将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；
标签替换模块，用于将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；
初始化模块，用于使用更新后的训练集预训练...

【专利技术属性】
技术研发人员：周军，丁松，王洋，江武明，
申请(专利权)人：北京眼神智能科技有限公司，北京眼神科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人