神经网络模型的训练方法及装置制造方法及图纸

技术编号：24123850 阅读：15 留言：0更新日期：2020-05-13 03:56

本说明书实施例提供一种神经网络模型的训练方法及装置。模型训练过程包括若干子训练过程，一个子训练过程包括预设数量个训练周期。在第N子训练过程的第M训练周期中，当第N子训练过程非首个子训练过程，且第M训练周期非首个训练周期时，基于第N‑1子训练过程的最后一个训练周期训练结束时得到的第一目标模型，以及第N子训练过程中的第M‑1训练周期训练结束时得到的第二目标模型，对待训练神经网络模型的训练过程进行调整，更新待训练神经网络模型。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练方法及装置
本说明书一个或多个实施例涉及数据处理
，尤其涉及一种神经网络模型的训练方法及装置。
技术介绍
深度学习在计算机视觉、自然语言处理领域都取得了远超传统方法的效果，现在已经成为人工智能领域非常主流的方法。通常来讲，神经网络的深度越深，期望的预测效果越好。在对神经网络模型进行训练时，可以采集大量的文本、图像、视频等样本数据，并依据针对样本数据标注的标签，对神经网络模型进行训练，以使得神经网络模型对输入数据的预测结果与标注的标签逐渐接近。因此，希望能有改进的方案，可以提高神经网络模型训练的有效性，在使用神经网络模型对业务数据进行业务预测时可以提高业务预测的准确性。
技术实现思路
本说明书一个或多个实施例描述了一种神经网络模型的训练方法及装置，以提高神经网络模型训练的有效性，进而使得神经网络模型对业务数据的业务预测更准确。具体的技术方案如下。第一方面，提供了一种神经网络模型的训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述方法包括：获取当前的第N子训练过程中第M训练周期的待训练神经网络模型；获取所述训练样本集中的第一样本数据和对应的第一标注数据；将所述第一样本数据输入所述待训练神经网络模型，得到所述第一样本数据的第一预测数据；当所述第N子...

【技术保护点】
1.一种神经网络模型的训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述方法包括：/n获取当前的第N子训练过程中第M训练周期的待训练神经网络模型；/n获取所述训练样本集中的第一样本数据和对应的第一标注数据；/n将所述第一样本数据输入所述待训练神经网络模型，得到所述第一样本数据的第一预测数据；/n当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；/n根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；/n向使得所述第一预...

【技术特征摘要】
1.一种神经网络模型的训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述方法包括：
获取当前的第N子训练过程中第M训练周期的待训练神经网络模型；
获取所述训练样本集中的第一样本数据和对应的第一标注数据；
将所述第一样本数据输入所述待训练神经网络模型，得到所述第一样本数据的第一预测数据；
当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；
根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；
向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

2.根据权利要求1所述的方法，还包括：
检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；
如果是，则将更新后的待训练神经网络模型确定为所述第M训练周期结束时得到的神经网络模型。

3.根据权利要求1所述的方法，还包括：
当所述第N子训练过程不是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，基于第一目标模型获取所述第一样本数据的第二预测数据；其中，所述第一目标模型是第N-1子训练过程的最后一个训练周期训练结束时得到的神经网络模型；
根据所述第一标注数据和所述第二预测数据分别与所述第一预测数据之间的比较，确定第二预测损失；
向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

4.根据权利要求1所述的方法，还包括：
当所述第N子训练过程是第一个子训练过程，且所述第M训练周期不是所述第N子训练过程中的第一个训练周期时，基于第二目标模型获取所述第一样本数据的第三预测数据；其中，所述第二目标模型是所述第N子训练过程中的第M-1训练周期训练结束时得到的神经网络模型；
根据所述第一标注数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第三预测损失；
向使得所述第三预测损失减小的方向，更新所述待训练神经网络模型。

5.根据权利要求1所述的方法，还包括：
当所述第N子训练过程是第一个子训练过程，且所述第M训练周期是所述第N子训练过程中的第一个训练周期时，根据所述第一标注数据和所述第一预测数据之间的比较，确定第四预测损失；
向使得所述第四预测损失减小的方向，更新所述待训练神经网络模型。

6.根据权利要求1所述的方法，所述根据所述第一标注数据、所述第二预测数据和所述第三预测数据分别与所述第一预测数据之间的比较，确定第一预测损失的步骤，包括：
根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失；
根据所述第一预测数据与所述第二预测数据的比较，确定第二子预测损失；
根据所述第一预测数据与所述第三预测数据的比较，确定第三子预测损失；
根据所述第一子预测损失、所述第二子预测损失和所述第三子预测损失的和值，确定第一预测损失。

7.根据权利要求6所述的方法，所述第一标注数据为标注值，所述根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失的步骤，包括：
采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

8.根据权利要求6所述的方法，所述第一标注数据为标注分类，所述根据所述第一标注数据与所述第一预测数据的比较，确定第一子预测损失的步骤，包括：
采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

9.根据权利要求1所述的方法，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；
所述业务数据包括：文本、图像、音频、对象数据中的至少一种。

10.一种神经网络模型的训练装置，部署在计算机中，所述神经网络模型的模型训练过程包括若干子训练过程，任意一个子训练过程包括预设数量个训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测；所述装置包括：
第一获取模块，配置为获取当前的第N子...

【专利技术属性】
技术研发人员：蒋亮，温祖杰，梁忠平，张家兴，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人