神经网络模型的训练方法和装置制造方法及图纸

技术编号:25225425 阅读:11 留言:0更新日期:2020-08-11 23:14
本公开涉及人工智能领域。本公开的实施例公开了神经网络模型的训练方法和装置。该方法包括迭代执行多次训练操作;训练操作包括:对第一神经网络模型进行剪枝得到第二神经网络模型;采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采用第二神经网络模型对媒体数据进行特征提取得到第二特征;获取第一神经网络模型对媒体数据的处理结果;基于预先构建的监督函数和任务损失函数,确定第一神经网络模型的误差,通过反向传播误差迭代调整第一神经网络模型的参数;监督函数表征第一特征和第二特征之间的差异,任务损失函数表征第一神经网络模型对媒体数据的处理结果的误差。该方法可以训练出剪枝后模型性能较好的神经网络模型。

【技术实现步骤摘要】
神经网络模型的训练方法和装置
本公开的实施例涉及计算机
,具体涉及人工智能
,尤其涉及神经网络模型的训练方法和装置。
技术介绍
神经网络的剪枝是将其中冗余的参数删除以提升神经网络的运算速度的技术。目前的剪枝方法是在神经网络训练完成之后,按照一定的规则对模型的通道进行裁剪。然而,参数之间的关系对模型的性能有直接的影响,即使对于权重非常小的参数,裁剪掉之后可能会对模型的精度造成极大的影响。因此,为了确保剪枝后的神经网络的性能,剪枝的效率非常低。
技术实现思路
本公开的实施例提出了神经网络模型的训练方法和装置、电子设备和计算机可读介质。第一方面,本公开的实施例提供了一种神经网络模型的训练方法,包括迭代执行多次训练操作;训练操作包括:对第一神经网络模型进行剪枝得到第二神经网络模型;采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采用第二神经网络模型对媒体数据进行特征提取得到第二特征;获取第一神经网络模型基于第一特征对媒体数据的处理结果;基于预先构建的监督函数和任务损失函数,确定第一神经网络模型的误差,通过反向传播误差迭代调整第一神经网络模型的参数;其中,监督函数表征第一特征和第二特征之间的差异,任务损失函数表征第一神经网络模型对媒体数据的处理结果的误差。在一些实施例中,上述第一神经网络模型包括第一特征提取层和第一分类器,第一特征包括由第一特征提取层中与第一分类器连接的最后一个网络层输出的特征;上述第二神经网络模型包括第二特征提取层和第二分类器,第二特征包括由第二特征提取层中与第二分类器连接的最优一个网络层输出的特征。在一些实施例中,上述第一特征还包括由第一特征提取层中的第一中间层输出的特征;上述第二特征还包括由第二特征提取层中的第二中间层输出的特征;第一特征和第二特征之间的差异包括:第一中间层输出的特征与第二神经网络模型中与第一中间层对应的第二中间层输出的特征之间的差异,以及第一分类器连接的最后一个网络层输出的特征与第二分类器连接的最后一个网络层输出的特征之间的差异。在一些实施例中,上述训练操作还包括:响应于确定训练操作达到预设的收敛条件,确定第一神经网络模型完成训练;以及上述方法还包括:对完成训练的第一神经网络模型进行剪枝,得到剪枝后的神经网络模型。在一些实施例中,上述方法还包括:采用剪枝后的神经网络模型对待处理媒体数据进行处理。第二方面,本公开的实施例提供了一种用于训练神经网络模型的装置,包括训练单元,被配置为迭代执行多次训练操作。训练单元包括:第一剪枝单元,被配置为在每次训练操作中对第一神经网络模型进行剪枝得到第二神经网络模型;提取单元,被配置为在每次训练操作中采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采用第二神经网络模型对媒体数据进行特征提取得到第二特征;获取单元,被配置为在每次训练操作中获取第一神经网络模型基于第一特征对媒体数据的处理结果;以及更新单元,被配置为在每次训练操作中基于预先构建的监督函数和任务损失函数,确定第一神经网络模型的误差,通过反向传播误差迭代调整第一神经网络模型的参数;其中,监督函数表征第一特征和第二特征之间的差异,任务损失函数表征第一神经网络模型对媒体数据的处理结果的误差。在一些实施例中,上述第一神经网络模型包括第一特征提取层和第一分类器,第一特征包括由第一特征提取层中与第一分类器连接的最后一个网络层输出的特征;第二神经网络模型包括第二特征提取层和第二分类器,第二特征包括由第二特征提取层中与第二分类器连接的最优一个网络层输出的特征。在一些实施例中,上述第一特征还包括由第一特征提取层中的第一中间层输出的特征;上述第二特征还包括由第二特征提取层中的第二中间层输出的特征;上述第一特征和第二特征之间的差异包括:第一中间层输出的特征与第二神经网络模型中与第一中间层对应的第二中间层输出的特征之间的差异,以及第一分类器连接的最后一个网络层输出的特征与第二分类器连接的最后一个网络层输出的特征之间的差异。在一些实施例中,上述训练单元还包括:确定单元,被配置为在每次训练操作中响应于确定训练操作达到预设的收敛条件,确定第一神经网络模型完成训练;以及上述装置还包括:第二剪枝单元,被配置为对完成训练的第一神经网络模型进行剪枝,得到剪枝后的神经网络模型。在一些实施例中,上述装置还包括:处理单元,被配置为采用剪枝后的神经网络模型对待处理媒体数据进行处理。第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的神经网络模型的训练方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的神经网络模型的训练方法。本公开的上述实施例的神经网络模型的训练方法和装置,包括迭代执行多次训练操作;训练操作包括:对第一神经网络模型进行剪枝得到第二神经网络模型;采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采用第二神经网络模型对媒体数据进行特征提取得到第二特征;获取第一神经网络模型基于第一特征对媒体数据的处理结果;基于预先构建的监督函数和任务损失函数,确定第一神经网络模型的误差,通过反向传播误差迭代调整第一神经网络模型的参数;其中,监督函数表征第一特征和第二特征之间的差异,任务损失函数表征第一神经网络模型对媒体数据的处理结果的误差。该方法和装置通过在神经网络模型的训练中利用剪枝后的神经网络模型的性能进行监督,最小化剪枝过程中保留的参数对被裁剪掉的参数的依赖性,能够训练出可快速剪枝且剪枝后模型性能较好的神经网络模型。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的实施例可以应用于其中的示例性系统架构图;图2是根据本公开的神经网络模型的训练方法的一个实施例的流程图;图3是根据本公开的神经网络模型的训练方法的另一个实施例的流程图;图4是本公开的神经网络模型的训练装置的一个实施例的结构示意图;图5是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的神经网络模型的训练方法或神经网络模型的训练装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。本文档来自技高网...

【技术保护点】
1.一种神经网络模型的训练方法,包括迭代执行多次训练操作;所述训练操作包括:/n对第一神经网络模型进行剪枝得到第二神经网络模型;/n采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采用第二神经网络模型对媒体数据进行特征提取得到第二特征;/n获取所述第一神经网络模型基于所述第一特征对所述媒体数据的处理结果;/n基于预先构建的监督函数和任务损失函数,确定所述第一神经网络模型的误差,通过反向传播所述误差迭代调整所述第一神经网络模型的参数;/n其中,所述监督函数表征所述第一特征和所述第二特征之间的差异,所述任务损失函数表征所述第一神经网络模型对所述媒体数据的处理结果的误差。/n

【技术特征摘要】
1.一种神经网络模型的训练方法,包括迭代执行多次训练操作;所述训练操作包括:
对第一神经网络模型进行剪枝得到第二神经网络模型;
采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采用第二神经网络模型对媒体数据进行特征提取得到第二特征;
获取所述第一神经网络模型基于所述第一特征对所述媒体数据的处理结果;
基于预先构建的监督函数和任务损失函数,确定所述第一神经网络模型的误差,通过反向传播所述误差迭代调整所述第一神经网络模型的参数;
其中,所述监督函数表征所述第一特征和所述第二特征之间的差异,所述任务损失函数表征所述第一神经网络模型对所述媒体数据的处理结果的误差。


2.根据权利要求1所述的方法,其中,所述第一神经网络模型包括第一特征提取层和第一分类器,所述第一特征包括由所述第一特征提取层中与所述第一分类器连接的最后一个网络层输出的特征;
所述第二神经网络模型包括第二特征提取层和第二分类器,所述第二特征包括由所述第二特征提取层中与所述第二分类器连接的最优一个网络层输出的特征。


3.根据权利要求2所述的方法,其中,所述第一特征还包括由所述第一特征提取层中的第一中间层输出的特征;
所述第二特征还包括由所述第二特征提取层中的第二中间层输出的特征;
所述第一特征和所述第二特征之间的差异包括:所述第一中间层输出的特征与所述第二神经网络模型中与所述第一中间层对应的所述第二中间层输出的特征之间的差异,以及所述第一分类器连接的最后一个网络层输出的特征与所述第二分类器连接的最后一个网络层输出的特征之间的差异。


4.根据权利要求1-3任一项所述的方法,其中,所述训练操作还包括:
响应于确定训练操作达到预设的收敛条件,确定所述第一神经网络模型完成训练;以及
所述方法还包括:
对完成训练的第一神经网络模型进行剪枝,得到剪枝后的神经网络模型。


5.根据权利要求4所述的方法,其中,所述方法还包括:
采用剪枝后的神经网络模型对待处理媒体数据进行处理。


6.一种神经网络模型的训练装置,包括训练单元,被配置为迭代执行多次训练操作;
所述训练单元包括:
第一剪枝单元,被配置为在每次训练操作中对第一神经网络模型进行剪枝得到第二神经网络模型;
提取单元,被配置为在每次训练操作中采用第一神经网络模型对媒体数据进行特征提取得到第一特征,采...

【专利技术属性】
技术研发人员:希滕张刚温圣召
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1