【技术实现步骤摘要】
一种模型训练方法和相关装置
本申请涉及数据处理领域,特别是涉及一种模型训练方法和相关装置。
技术介绍
随着人工智能技术的发展,通过神经网络模型可以为用户提供各类服务,例如语音识别、图像识别、搜索等。一个高质量的神经网络模型需要通过大量训练数据的训练后才能得到,当训练数据的数量级很大的情况下,完成训练所需要的时间非常可观,难以满足日益出现的服务需求。针对高训练耗时的问题,一些相关技术提出了多处理节点并行训练的解决方式。针对包括海量训练数据的数据集,通过多个处理节点分别对同一个初始模型进行并行训练,训练过程会包括多次训练迭代,在一次训练迭代结束时会将全部处理节点所训练模型的模型参数进行平均计算,将平均计算得出的模型参数作为下一次训练迭代时每个处理节点所训练模型的初始参数。消耗完训练数据后,将每个处理节点的模型进行融合,得到对应该数据集的网络模型。由于训练过程中每个处理节点都并行的从该数据集中调取训练数据,加快了训练数据的消耗速度,缩短了训练耗时。然而,由于上述相关技术所采用的模型参数平均方式,所得到的网络模型相对于单处理节点训练的网络模型具有一定程度的性能损失,性能损失的大小与并行训练所使用的处理节点数量具有线性关系。导致训练效率和训练质量难以两全。
技术实现思路
为了解决上述技术问题,本申请提供了一种模型训练方法和相关装置,通过在原有模型平均的基础上,进一步增加了针对于不同处理节点的第一变化信息作为个性化补偿,从而在强调了整体训练同质性的前提下突出了不同处理节点所采用模型参数 ...
【技术保护点】
1.一种模型训练方法,其特征在于,在通过多个处理节点对网络模型进行并行训练的过程中包括k次训练迭代,所述方法包括:/n在第i次训练迭代结束时,处理设备根据所述多个处理节点所训练的所述网络模型的模型参数确定模型参数均值,k≥2,i≤k-1;/n针对所述多个处理节点中的目标处理节点,所述处理设备确定所述目标处理节点对应的第一参数变化信息,所述第一参数变化信息用于标识所述目标处理节点所训练的所述网络模型的模型参数基于第i次训练迭代产生的变化;/n所述处理设备根据所述模型参数均值和所述第一参数变化信息,确定在第i+1次训练迭代开始时所述目标处理节点所训练的所述网络模型的初始模型参数。/n
【技术特征摘要】
1.一种模型训练方法,其特征在于,在通过多个处理节点对网络模型进行并行训练的过程中包括k次训练迭代,所述方法包括:
在第i次训练迭代结束时,处理设备根据所述多个处理节点所训练的所述网络模型的模型参数确定模型参数均值,k≥2,i≤k-1;
针对所述多个处理节点中的目标处理节点,所述处理设备确定所述目标处理节点对应的第一参数变化信息,所述第一参数变化信息用于标识所述目标处理节点所训练的所述网络模型的模型参数基于第i次训练迭代产生的变化;
所述处理设备根据所述模型参数均值和所述第一参数变化信息,确定在第i+1次训练迭代开始时所述目标处理节点所训练的所述网络模型的初始模型参数。
2.根据权利要求1所述的方法,其特征在于,所述处理设备根据所述模型参数均值和所述第一参数变化信息,确定在第i+1次训练迭代开始时所述目标处理节点所训练的所述网络模型的初始模型参数,包括:
所述处理设备将所述第一参数变化信息作为增量对所述模型参数均值进行增量处理;
所述处理设备将增量处理的结果作为在第i+1次训练迭代开始时所述目标处理节点所训练的所述网络模型的初始模型参数。
3.根据权利要求1或2所述的方法,其特征在于,在i>1时,所述方法还包括:
所述处理设备确定所述目标处理节点对应的第二参数变化信息,所述第二参数变化信息用于标识所述目标处理节点所训练的所述网络模型的模型参数基于第i-1次训练迭代产生的变化;
所述处理设备根据所述模型参数均值和所述第一参数变化信息,确定在第i+1次训练迭代开始时所述目标处理节点所训练的所述网络模型的初始模型参数,包括:
所述处理设备根据所述模型参数均值、所述第一参数变化信息和所述第二参数变化信息,确定在第i+1次训练迭代开始时所述目标处理节点所训练的所述网络模型的初始模型参数。
4.根据权利要求1或2所述的方法,其特征在于,所述在第i次训练迭代结束时,处理设备根据所述多个处理节点所训练的所述网络模型的模型参数确定模型参数均值,包括:
所述处理设备在所述多个处理节点中确定作为待计算节点的处理节点,所述待计算节点的数量少于所述多个处理节点的数量;
所述处理设备根据所述待计算节点所训练的所述网络模型的模型参数确定所述模型参数均值。
5.根据权利要求4所述的方法,其特征在于,所述目标处理节点为所述待计算节点中的一个。
6.根据权利要求1或2所述的方法,其特征在于,所述网络模型包括语音识别中所采用的声学模型或语音模型。
7.根据权利要求1或2所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:黄羿衡,田晋川,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。