卷积神经网络模型的建模方法及装置制造方法及图纸

技术编号:19779227 阅读:70 留言:0更新日期:2018-12-15 11:38
本发明专利技术实施例公开一种卷积神经网络模型的建模方法及装置,能解决全连接Dropout算法抑制过拟合效果不明显的问题。方法包括:S1、利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0;S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。

【技术实现步骤摘要】
卷积神经网络模型的建模方法及装置
本专利技术实施例涉及计算机领域,具体涉及一种卷积神经网络模型的建模方法及装置。
技术介绍
神经网络模型存在过拟合现象。就是说神经网络训练得到的模型过度拟合训练数据集,在测试集或其他独立数据集上的拟合效果差,泛化性能不理想。有限的训练数据集不可能涵盖所有的特征,神经网络的过拟合问题会严重影响神经网络在现实应用场景中的使用。卷积神经网络作为一种特殊的神经网络,同样存在过拟合现象。Dropout算法是一种针对全连接神经网络提出的防止过拟合算法,该算法在防止全连接神经网络过拟合问题上效果明显。近几年卷积神经网络在各领域应用广泛,其同样面临网络模型过拟合的问题。由于卷积神经网络一般会在网络模型最后几层使用全连接层对特征进行分类,为防止卷积神经网络过拟合,研究人员将Dropout算法应用于卷积神经网络的全连接层中。但是,这种Dropout的使用方式有时无法取得明显的防止过拟合的效果。DeepID是香港中文大学设计的一个专门用于人脸识别的卷积神经网络模型,该模型在全连接层上使用了Dropout。DeepID由四个卷积层、三个池化层和两个全连接层组成,最后使用SoftMax分类器对数据进行分类,为防止网络模型过拟合,DeepID在第一个全连接层后使用了Dropout。申请人在实施本专利技术的过程中发现,Dropout算法的原理是它切断了神经元之间的固定联系,减弱了神经元之间的共适应性,使得单个神经元需要和不同的其他神经元组合一起工作,增强了单个神经元提取特征的能力,强迫模型选取鲁棒性更强的数据特征。而DeepID模型中,Dropout算法仅被应用于一个全连接层上,全连接层前面的七层网络原封不动,算法减弱神经元间共适应性的能力受到很大限制。所以在训练数据集规模较小时,网络模型依然会出现过拟合现象。
技术实现思路
有鉴于此,本专利技术实施例提供一种卷积神经网络模型的建模方法及装置,能提高卷积神经网络模型的建模的准确性以及遗传信息的利用率。一方面,本专利技术实施例提出一种卷积神经网络模型的建模方法,包括:S1、利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0;S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。另一方面,本专利技术实施例提出一种卷积神经网络模型的建模装置,包括:训练单元,用于利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0;测试单元,用于利用测试数据集对所述训练好的卷积神经网络模型进行测试。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。本专利技术实施例提供的卷积神经网络模型的建模方法及装置,通过随机将卷积核中的部分参数置为0的方式,切断神经元之间的联系,削弱它们之间的共适应性,这种方式可以保证后续神经元的处理不会对算法本身的效果产生影响,通过上述方案在实现与Dropout算法相同效果的同时,保证计算结果不会受到池化层的影响,解决了Dropout算法被直接应用到卷积层时抑制过拟合效果不明显的问题。附图说明图1为本专利技术卷积神经网络模型的建模方法一实施例的流程示意图;图2为DropoutConv原理示意图;图3为原始DeepID模型在训练过程中正确率的变化示意图;图4为原始DeepID模型在训练过程中损失值的变化示意图;图5为使用了DropoutConv的DeepID模型在训练过程中正确率的变化示意图;图6为使用了DropoutConv的DeepID模型在训练过程中损失值的变化示意图;图7为本专利技术卷积神经网络模型的建模装置一实施例的结构示意图;图8为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。参看图1,本实施例公开一种卷积神经网络模型的建模方法,包括:S1、利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0;本专利技术实施例提出了专门应用在卷积层的改进算法DropoutConv。Dropout算法的做法是随机切断神经元间的关系,削弱它们之间的共适应性。在卷积神经网络中,卷积层中的每个神经元与前一层的部分神经元通过卷积操作联系起来,卷积操作的输入参数分别为卷积核和前一层的神经元输出。DropoutConv继承Dropout的思想,将Dropout算法直接应用到卷积层,而不是在卷积层和池化层之间加上一层Dropout层,具体做法是DropoutConv通过随机将卷积核中的部分参数置为0的方式,切断神经元之间的联系。如图2所示为DropoutConv原理示意图。图2说明了DropoutConv的工作原理,上半部分表示普通的卷积层提取特征的过程,左侧矩阵表示输入特征图,中间的矩阵表示卷积核,卷积核在特征图上滑动卷积,得到右侧的卷积结果;图的下半部分表示包含DropoutConv算法的卷积过程,左侧的输入特征图一样,DropoutConv算法对卷积核做处理,以一定概率将卷积核的参数置为0,从而切断了卷积核与对应位置神经元的联系,之后使用处理后的卷积核对输入特征图进行滑动卷积操作,获取到右侧的输出特征图。对比上下两个输出结果,两者在数值上存在较大差异,因此基于聚合统计的池化算法,不会对DropoutConv算法的效果产生减弱或者抵消。S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。本专利技术实施例提供的卷积神经网络模型的建模方法,通过随机将卷积核中的部分参数置为0的方式,切断神经元之间的联系,削弱它们之间的共适应性,这种方式可以保证后续神经元的处理不会对算法本身的效果产生影响,通过上述方案在实现与Dropout算法相同效果的同时,保证计算结果不会受到池化层的影响,解决了Dropout算法被直接应用到卷积层时抑制过拟合效果不明显的问题。在前述方法实施例的基础上,所述卷积神经网络模型为DeepID网络模型。在前述方法实施例的基础上,所述至少一个卷积层为所述DeepID网络模型的靠后的三个卷积层。下面以具体例子说明DropoutConv算法在图像分类方面能够显著提升测试本文档来自技高网
...

【技术保护点】
1.一种卷积神经网络模型的建模方法,其特征在于,包括:S1、利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0;S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。

【技术特征摘要】
1.一种卷积神经网络模型的建模方法,其特征在于,包括:S1、利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0;S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型为DeepID网络模型。3.根据权利要求2所述的方法,其特征在于,所述至少一个卷积层为所述DeepID网络模型的靠后的三个卷积层。4.一种卷积神经网络模型的建模装置,其特征在于,包括:训练单元,用于利用训练数据集对预先构建的卷积神经网络模型进行训练,得到训练好的卷积神经网络模型,其中,在构建所述卷积神经网络模型时,随机将所...

【专利技术属性】
技术研发人员:王衍洋唐文忠史胜阳
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1