神经网络模型的训练方法和装置制造方法及图纸

技术编号：25225425 阅读：11 留言：0更新日期：2020-08-11 23:14

本公开涉及人工智能领域。本公开的实施例公开了神经网络模型的训练方法和装置。该方法包括迭代执行多次训练操作；训练操作包括：对第一神经网络模型进行剪枝得到第二神经网络模型；采用第一神经网络模型对媒体数据进行特征提取得到第一特征，采用第二神经网络模型对媒体数据进行特征提取得到第二特征；获取第一神经网络模型对媒体数据的处理结果；基于预先构建的监督函数和任务损失函数，确定第一神经网络模型的误差，通过反向传播误差迭代调整第一神经网络模型的参数；监督函数表征第一特征和第二特征之间的差异，任务损失函数表征第一神经网络模型对媒体数据的处理结果的误差。该方法可以训练出剪枝后模型性能较好的神经网络模型。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练方法和装置
本公开的实施例涉及计算机
，具体涉及人工智能
，尤其涉及神经网络模型的训练方法和装置。
技术介绍
神经网络的剪枝是将其中冗余的参数删除以提升神经网络的运算速度的技术。目前的剪枝方法是在神经网络训练完成之后，按照一定的规则对模型的通道进行裁剪。然而，参数之间的关系对模型的性能有直接的影响，即使对于权重非常小的参数，裁剪掉之后可能会对模型的精度造成极大的影响。因此，为了确保剪枝后的神经网络的性能，剪枝的效率非常低。
技术实现思路
本公开的实施例提出了神经网络模型的训练方法和装置、电子设备和计算机可读介质。第一方面，本公开的实施例提供了一种神经网络模型的训练方法，包括迭代执行多次训练操作；训练操作包括：对第一神经网络模型进行剪枝得到第二神经网络模型；采用第一神经网络模型对媒体数据进行特征提取得到第一特征，采用第二神经网络模型对媒体数据进行特征提取得到第二特征；获取第一神经网络模型基于第一特征对媒体数据的处理结果；基于预先构建的监督函数和任务损失函数，确定第一神经网络模型的误差，通过反向传播误差迭代调整第一神经网络模型的参数；其中，监督函数表征第一特征和第二特征之间的差异，任务损失函数表征第一神经网络模型对媒体数据的处理结果的误差。在一些实施例中，上述第一神经网络模型包括第一特征提取层和第一分类器，第一特征包括由第一特征提取层中与第一分类器连接的最后一个网络层输出的特征；上述第二神经网络模型包括第二特征提取层和第二分类器，第二特征包括由第二特征提取...

【技术保护点】
1.一种神经网络模型的训练方法，包括迭代执行多次训练操作；所述训练操作包括：/n对第一神经网络模型进行剪枝得到第二神经网络模型；/n采用第一神经网络模型对媒体数据进行特征提取得到第一特征，采用第二神经网络模型对媒体数据进行特征提取得到第二特征；/n获取所述第一神经网络模型基于所述第一特征对所述媒体数据的处理结果；/n基于预先构建的监督函数和任务损失函数，确定所述第一神经网络模型的误差，通过反向传播所述误差迭代调整所述第一神经网络模型的参数；/n其中，所述监督函数表征所述第一特征和所述第二特征之间的差异，所述任务损失函数表征所述第一神经网络模型对所述媒体数据的处理结果的误差。/n

【技术特征摘要】
1.一种神经网络模型的训练方法，包括迭代执行多次训练操作；所述训练操作包括：
对第一神经网络模型进行剪枝得到第二神经网络模型；
采用第一神经网络模型对媒体数据进行特征提取得到第一特征，采用第二神经网络模型对媒体数据进行特征提取得到第二特征；
获取所述第一神经网络模型基于所述第一特征对所述媒体数据的处理结果；
基于预先构建的监督函数和任务损失函数，确定所述第一神经网络模型的误差，通过反向传播所述误差迭代调整所述第一神经网络模型的参数；
其中，所述监督函数表征所述第一特征和所述第二特征之间的差异，所述任务损失函数表征所述第一神经网络模型对所述媒体数据的处理结果的误差。

2.根据权利要求1所述的方法，其中，所述第一神经网络模型包括第一特征提取层和第一分类器，所述第一特征包括由所述第一特征提取层中与所述第一分类器连接的最后一个网络层输出的特征；
所述第二神经网络模型包括第二特征提取层和第二分类器，所述第二特征包括由所述第二特征提取层中与所述第二分类器连接的最优一个网络层输出的特征。

3.根据权利要求2所述的方法，其中，所述第一特征还包括由所述第一特征提取层中的第一中间层输出的特征；
所述第二特征还包括由所述第二特征提取层中的第二中间层输出的特征；
所述第一特征和所述第二特征之间的差异包括：所述第一中间层输出的特征与所述第二神经网络模型中与所述第一中间层对应的所述第二中间层输出的特征之间的差异，以及所述第一分类器连接的最后一个网络层输出的特征与所述第二分类器连接的最后一个网络层输出的特征之间的差异。

4.根据权利要求1-3任一项所述的方法，其中，所述训练操作还包括：
响应于确定训练操作达到预设的收敛条件，确定所述第一神经网络模型完成训练；以及
所述方法还包括：
对完成训练的第一神经网络模型进行剪枝，得到剪枝后的神经网络模型。

5.根据权利要求4所述的方法，其中，所述方法还包括：
采用剪枝后的神经网络模型对待处理媒体数据进行处理。

6.一种神经网络模型的训练装置，包括训练单元，被配置为迭代执行多次训练操作；
所述训练单元包括：
第一剪枝单元，被配置为在每次训练操作中对第一神经网络模型进行剪枝得到第二神经网络模型；
提取单元，被配置为在每次训练操作中采用第一神经网络模型对媒体数据进行特征提取得到第一特征，采...

【专利技术属性】
技术研发人员：希滕，张刚，温圣召，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人