神经网络模型的优化方法及装置、电子设备和存储介质制造方法及图纸

技术编号:20045974 阅读:30 留言:0更新日期:2019-01-09 04:30
本公开涉及一种神经网络模型的优化方法及装置、电子设备和存储介质。该方法包括:从学生模型的输出层之前的全连接层中选取部分神经元;将输入数据分别输入学生模型和老师模型,基于从学生模型的输出层之前的全连接层中选取的部分神经元,得到学生模型的输出;基于老师模型的输出层之前的全连接层中的全部神经元,得到老师模型的输出;基于学生模型的输出和老师模型的输出,优化学生模型。本公开实施例能够在不增加训练数据总量和无需重新训练的前提下,稳定提高神经网络模型的准确率,且能够增强神经网络模型的泛化能力。

【技术实现步骤摘要】
神经网络模型的优化方法及装置、电子设备和存储介质
本公开涉及深度学习
,尤其涉及一种神经网络模型的优化方法及装置、电子设备和存储介质。
技术介绍
目前,神经网络模型被应用于计算机视觉和自然语言处理等各个方面(例如行人检索和人脸识别),并取得了较好的效果。在神经网络模型训练完成之后,测试的准确率往往限制了神经网络模型的准确率的上限。相关技术中,通常通过增加训练数据的总量、改变神经网络模型的结构或者对模型进行细微调整和重训练,来提高神经网络模型的准确率。这些方法都对数据量提出了非常高的要求。增加训练数据的总量和细微调整不一定能提高神经网络模型的准确率,可能的原因是数据质量参差不齐导致神经网络模型的训练难度增加。改变神经网络模型的结构通常没有一个明确的标准,因此无法保证训练后神经网络模型的准确率。
技术实现思路
本公开提出了一种神经网络模型的优化技术方案。根据本公开的一方面,提供了一种神经网络模型的优化方法,包括:从学生模型的输出层之前的全连接层中选取部分神经元;将输入数据分别输入所述学生模型和老师模型,基于从所述学生模型的输出层之前的全连接层中选取的部分神经元,得到所述学生模型的输出;基于所述老师模型的输出层之前的全连接层中的全部神经元,得到所述老师模型的输出;基于所述学生模型的输出和所述老师模型的输出,优化所述学生模型。在一种可能的实现方式中,从学生模型的输出层之前的全连接层中选取部分神经元,包括:从学生模型的输出层之前的最后一个全连接层中选取部分神经元。在一种可能的实现方式中,从学生模型的输出层之前的全连接层中选取部分神经元,包括:针对第一全连接层中的每个神经元,分别在第一区间中生成一个随机数,其中,所述第一全连接层表示所述学生模型的输出层之前进行神经元选取的全连接层;若所述第一全连接层中的第一神经元对应的随机数属于第二区间,则从所述第一全连接层中选取所述第一神经元,其中,所述第二区间为所述第一区间的子集,且所述第二区间不等于所述第一区间。在一种可能的实现方式中,基于所述学生模型的输出和所述老师模型的输出,优化所述学生模型,包括:确定所述学生模型的输出与所述老师模型的输出之间的均方误差;基于所述均方误差,得到第一损失函数;采用所述第一损失函数优化所述学生模型。在一种可能的实现方式中,基于所述学生模型的输出和所述老师模型的输出,优化所述学生模型,包括:确定所述学生模型的输出相对于所述老师模型的输出的相对熵;基于所述相对熵,得到第二损失函数;采用所述第二损失函数优化所述学生模型。在一种可能的实现方式中,基于所述相对熵,得到第二损失函数,包括:确定所述相对熵对应的调整系数;将所述相对熵与所述调整系数的乘积确定为第二损失函数。在一种可能的实现方式中,所述输出为分对数层输出的分对数。根据本公开的一方面,提供了一种神经网络模型的优化装置,包括:选取模块,用于从学生模型的输出层之前的全连接层中选取部分神经元;第一确定模块,用于将输入数据分别输入所述学生模型和老师模型,基于从所述学生模型的输出层之前的全连接层中选取的部分神经元,得到所述学生模型的输出;第二确定模块,用于基于所述老师模型的输出层之前的全连接层中的全部神经元,得到所述老师模型的输出;优化模块,用于基于所述学生模型的输出和所述老师模型的输出,优化所述学生模型。在一种可能的实现方式中,所述选取模块用于:从学生模型的输出层之前的最后一个全连接层中选取部分神经元。在一种可能的实现方式中,所述选取模块包括:生成子模块,用于针对第一全连接层中的每个神经元,分别在第一区间中生成一个随机数,其中,所述第一全连接层表示所述学生模型的输出层之前进行神经元选取的全连接层;选取子模块,用于若所述第一全连接层中的第一神经元对应的随机数属于第二区间,则从所述第一全连接层中选取所述第一神经元,其中,所述第二区间为所述第一区间的子集,且所述第二区间不等于所述第一区间。在一种可能的实现方式中,所述优化模块包括:第一确定子模块,用于确定所述学生模型的输出与所述老师模型的输出之间的均方误差;第二确定子模块,用于基于所述均方误差,得到第一损失函数;第一优化子模块,用于采用所述第一损失函数优化所述学生模型。在一种可能的实现方式中,所述优化模块包括:第三确定子模块,用于确定所述学生模型的输出相对于所述老师模型的输出的相对熵;第四确定子模块,用于基于所述相对熵,得到第二损失函数;第二优化子模块,用于采用所述第二损失函数优化所述学生模型。在一种可能的实现方式中,所述第四确定子模块包括:第一确定单元,用于确定所述相对熵对应的调整系数;第二确定单元,用于将所述相对熵与所述调整系数的乘积确定为第二损失函数。在一种可能的实现方式中,所述输出为分对数层输出的分对数。根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行上述神经网络模型的优化方法。根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述神经网络模型的优化方法。在本公开实施例中,基于从学生模型的输出层之前的全连接层中选取的部分神经元,得到学生模型的输出,基于老师模型的输出层之前的全连接层中的全部神经元,得到老师模型的输出,并基于学生模型的输出和老师模型的输出,优化学生模型,由此能够在不增加训练数据总量和无需重新训练的前提下,稳定提高神经网络模型的准确率,且对于大部分神经网络模型和数据普遍适用,并通过选取学生模型的输出层之前的全连接层的部分神经元来有效拟合学生模型的输出,能够有效减轻神经网络模型的过拟合,增强神经网络模型的泛化能力。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。图1示出根据本公开实施例的神经网络模型的优化方法的流程图。图2示出根据本公开实施例的神经网络模型的优化方法步骤S11的一示例性的流程图。图3示出根据本公开实施例的神经网络模型的优化方法步骤S14的一示例性的流程图。图4示出根据本公开实施例的神经网络模型的优化方法步骤S14的另一示例性的流程图。图5示出根据本公开实施例的神经网络模型的优化方法步骤S145的一示例性的流程图。图6示出根据本公开实施例的神经网络模型的优化装置的框图。图7示出根据本公开实施例的神经网络模型的优化装置的一示例性的框图。图8是根据一示例性实施例示出的一种电子设备800的框图。图9是根据一示例性实施例示出的一种电子设备1900的框图。具体实施方式以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/本文档来自技高网...

【技术保护点】
1.一种神经网络模型的优化方法,其特征在于,包括:从学生模型的输出层之前的全连接层中选取部分神经元;将输入数据分别输入所述学生模型和老师模型,基于从所述学生模型的输出层之前的全连接层中选取的部分神经元,得到所述学生模型的输出;基于所述老师模型的输出层之前的全连接层中的全部神经元,得到所述老师模型的输出;基于所述学生模型的输出和所述老师模型的输出,优化所述学生模型。

【技术特征摘要】
1.一种神经网络模型的优化方法,其特征在于,包括:从学生模型的输出层之前的全连接层中选取部分神经元;将输入数据分别输入所述学生模型和老师模型,基于从所述学生模型的输出层之前的全连接层中选取的部分神经元,得到所述学生模型的输出;基于所述老师模型的输出层之前的全连接层中的全部神经元,得到所述老师模型的输出;基于所述学生模型的输出和所述老师模型的输出,优化所述学生模型。2.根据权利要求1所述的方法,其特征在于,从学生模型的输出层之前的全连接层中选取部分神经元,包括:从学生模型的输出层之前的最后一个全连接层中选取部分神经元。3.根据权利要求1或2所述的方法,其特征在于,从学生模型的输出层之前的全连接层中选取部分神经元,包括:针对第一全连接层中的每个神经元,分别在第一区间中生成一个随机数,其中,所述第一全连接层表示所述学生模型的输出层之前进行神经元选取的全连接层;若所述第一全连接层中的第一神经元对应的随机数属于第二区间,则从所述第一全连接层中选取所述第一神经元,其中,所述第二区间为所述第一区间的子集,且所述第二区间不等于所述第一区间。4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述输出为分对数层输出的分对数。5.一种神经网络模型的优化装置,其特征在于,包括:选取模块,用于从学生模型的输出层之前的全连接层中选取部分神经元;第一确定模块,用于将输入数据分别输入所...

【专利技术属性】
技术研发人员:罗棕太张学森伊帅闫俊杰王晓刚
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1