分布式的模型训练方法、系统、设备以及存储介质技术方案

技术编号：32532254 阅读：27 留言：0更新日期：2022-03-05 11:26

本公开的实施例提供了分布式的模型训练方法、系统、设备以及存储介质。该方法应用于包括多个节点服务器的集群服务器，该方法包括接收用户输入的待训练模型以及训练样本；集群服务器中的每个节点服务器，根据训练样本，对待训练模型进行训练，其中，训练样本包括样本数据以及样本数据对应的标识；当训练得到的模型对训练样本中的样本数据进行计算得到的标识，与样本数据对应的标识的差值小于预设阈值时，将训练得到的模型作为目标模型。以此方式，可以提高模型训练的效率。以提高模型训练的效率。以提高模型训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】
分布式的模型训练方法、系统、设备以及存储介质

[0001]本公开涉及模型训练领域，尤其涉及分布式的模型训练领域。

技术介绍

[0002]目前，在同一个系统下，各个节点所持有的模型不同，因此各个节点的模型训练结果不同，这将会导致系统下数据整体不稳定，进而浪费计算资源，实际训练效率较低。

技术实现思路

[0003]本公开提供了一种分布式的模型训练方法、系统、设备以及存储介质。
[0004]根据本公开的第一方面，提供了一种分布式的模型训练方法，应用于包括多个节点服务器的集群服务器，该方法包括：
[0005]接收用户输入的待训练模型以及训练样本；
[0006]集群服务器中的每个节点服务器，根据训练样本，对待训练模型进行训练，其中，训练样本包括样本数据以及样本数据对应的标识；
[0007]当训练得到的模型对训练样本中的样本数据进行计算得到的标识，与样本数据对应的标识的差值小于预设阈值时，将训练得到的模型作为目标模型。
[0008]在第一方面的一些实现方式中，所述集群服务器中的每个节点服务器，根据训练样本，对待训练模型进行训练，包括：
[0009]集群服务器中的每个节点服务器并行运行，基于待训练模型，对训练样本中的样本数据进行计算，得到标识；
[0010]根据标识与样本数据对应的标识之间的差值，调整待训练模型中的参数。
[0011]在第一方面的一些实现方式中，当训练得到的模型对训练样本中的样本数据进行计算得到的标识，与样本数据对应的标识的差值小于预设...

【技术保护点】

【技术特征摘要】
1.一种分布式的模型训练方法，其特征在于，应用于包括多个节点服务器的集群服务器，所述方法包括：接收用户输入的待训练模型以及训练样本；集群服务器中的每个节点服务器，根据所述训练样本，对所述待训练模型进行训练，其中，所述训练样本包括样本数据以及样本数据对应的标识；当训练得到的模型对所述训练样本中的样本数据进行计算得到的标识，与所述样本数据对应的标识的差值小于预设阈值时，将训练得到的模型作为目标模型。2.根据权利要求1所述的方法，其特征在于，所述集群服务器中的每个节点服务器，根据所述训练样本，对所述待训练模型进行训练，包括：所述集群服务器中的每个节点服务器并行运行，基于所述待训练模型，对所述训练样本中的样本数据进行计算，得到标识；根据所述标识与所述样本数据对应的标识之间的差值，调整所述待训练模型中的参数。3.根据权利要求1或2所述的方法，其特征在于，所述当训练得到的模型对所述训练样本中的样本数据进行计算得到的标识，与所述样本数据对应的标识的差值小于预设阈值时，将训练得到的模型作为目标模型，包括：当训练得到的模型对所述训练样本中的样本数据进行计算得到的标识，与所述样本数据对应的标识的差值小于预设阈值时，生成训练停止命令，以用于所述集群服务器中的每个节点服务器基于所述训练停止命令停止训练；将训练得到的模型作为目标模型。4.根据权利要求3所述的方法，其特征在于，在训练得到目标模型后，所述方法还包括：训练得到所述目标模型的节点服务器，将所述目标模型发送给所述集群服务器中的其他节点服务器，以用于其他节点服务器基于所述目...

【专利技术属性】
技术研发人员：胡建猛，
申请(专利权)人：乐视新生代北京文化传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人