分布式的模型训练方法、系统、设备以及存储介质技术方案

技术编号:32532254 阅读:27 留言:0更新日期:2022-03-05 11:26
本公开的实施例提供了分布式的模型训练方法、系统、设备以及存储介质。该方法应用于包括多个节点服务器的集群服务器,该方法包括接收用户输入的待训练模型以及训练样本;集群服务器中的每个节点服务器,根据训练样本,对待训练模型进行训练,其中,训练样本包括样本数据以及样本数据对应的标识;当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型。以此方式,可以提高模型训练的效率。以提高模型训练的效率。以提高模型训练的效率。

【技术实现步骤摘要】
分布式的模型训练方法、系统、设备以及存储介质


[0001]本公开涉及模型训练领域,尤其涉及分布式的模型训练领域。

技术介绍

[0002]目前,在同一个系统下,各个节点所持有的模型不同,因此各个节点的模型训练结果不同,这将会导致系统下数据整体不稳定,进而浪费计算资源,实际训练效率较低。

技术实现思路

[0003]本公开提供了一种分布式的模型训练方法、系统、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种分布式的模型训练方法,应用于包括多个节点服务器的集群服务器,该方法包括:
[0005]接收用户输入的待训练模型以及训练样本;
[0006]集群服务器中的每个节点服务器,根据训练样本,对待训练模型进行训练,其中,训练样本包括样本数据以及样本数据对应的标识;
[0007]当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型。
[0008]在第一方面的一些实现方式中,所述集群服务器中的每个节点服务器,根据训练样本,对待训练模型进行训练,包括:
[0009]集群服务器中的每个节点服务器并行运行,基于待训练模型,对训练样本中的样本数据进行计算,得到标识;
[0010]根据标识与样本数据对应的标识之间的差值,调整待训练模型中的参数。
[0011]在第一方面的一些实现方式中,当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型,包括:
[0012]当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,生成训练停止命令,以用于集群服务器中的每个节点服务器基于训练停止命令停止训练;
[0013]将训练得到的模型作为目标模型。
[0014]在第一方面的一些实现方式中,在训练得到目标模型后,该方法还包括:
[0015]训练得到目标模型的节点服务器,将目标模型发送给集群服务器中的其他节点服务器,以用于其他节点服务器基于目标模型进行对应计算。
[0016]在第一方面的一些实现方式中,该方法还包括:
[0017]根据每个节点服务器中目标模型对应的差值,选取差值最小的目标模型作为最优模型。
[0018]在第一方面的一些实现方式中,在接收用户输入的待训练模型之前,该方法还包括:
[0019]当集群服务器中存在除待训练模型之外的其他模型时,删除其他模型。
[0020]在第一方面的一些实现方式中,该方法还包括:
[0021]接收用户输入的新的训练样本;
[0022]根据预设周期,基于新的训练样本,对目标模型中的参数进行调整。
[0023]根据本公开的第二方面,提供了一种分布式的模型训练系统,该模型训练系统包括多个节点服务器;其中,
[0024]至少一个节点服务器,用于接收用户输入的待训练模型以及训练样本;
[0025]每个节点服务器,用于根据训练样本,对待训练模型进行训练,其中,训练样本包括样本数据以及样本数据对应的标识;当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型。
[0026]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现第一方面,以及第一方面任一可能的实现方式中的方法。
[0027]根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据第一方面,以及第一方面任一可能的实现方式中的方法。
[0028]本公开提供的分布式的模型训练方法、系统、设备以及存储介质,应用于包括多个节点服务器的集群服务器,集群服务器首先接收用户输入的待训练模型以及训练样本;之后集群服务器中的每个节点服务器,根据训练样本,对待训练模型进行训练,其中,训练样本包括样本数据以及样本数据对应的标识;当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型。在训练过程中,因为集群服务器中的每个节点服务器都可以基于待训练模型以及训练样本,进行模型训练,所以可以不用限制在一个设备上进行训练,进而可以提高模型训练效率。
[0029]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0030]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0031]图1示出了一种本公开实施例的分布式的模型训练方法的流程示意图;
[0032]图2示出了一种本公开实施例的分布式的模型训练系统框图;
[0033]图3示出了能够实施本公开的实施例的示例性电子设备的框图。
具体实施方式
[0034]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例
中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0035]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0036]通常多个节点服务器会共享一个模型文件,网络附加存储(Network Attached Storage,NAS)形式共享模型,不需要每个节点都有一份模型。
[0037]但在上述网络结构中的模型,会存在训练效率较低的问题。
[0038]为了解决上述存在的训练效率较低的问题,本公开提供了一种分布式的模型训练方法、系统、设备以及存储介质,应用于包括多个节点服务器的集群服务器,首先接收用户输入的待训练模型以及训练样本;之后集群服务器中的每个节点服务器,根据训练样本,对待训练模型进行训练,其中,训练样本包括样本数据以及样本数据对应的标识;最后当训练得到的模型对训练样本中的样本数据进行计算得到的标识,与样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型。因为在本公开中,集群服务器中的每个节点服务器都会基于待训练模型以及训练样本,进行模型训练,所以可以提高训练的效率。
[0039]下面结合附图对本公开实施例提供的技术方案进行描述。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式的模型训练方法,其特征在于,应用于包括多个节点服务器的集群服务器,所述方法包括:接收用户输入的待训练模型以及训练样本;集群服务器中的每个节点服务器,根据所述训练样本,对所述待训练模型进行训练,其中,所述训练样本包括样本数据以及样本数据对应的标识;当训练得到的模型对所述训练样本中的样本数据进行计算得到的标识,与所述样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型。2.根据权利要求1所述的方法,其特征在于,所述集群服务器中的每个节点服务器,根据所述训练样本,对所述待训练模型进行训练,包括:所述集群服务器中的每个节点服务器并行运行,基于所述待训练模型,对所述训练样本中的样本数据进行计算,得到标识;根据所述标识与所述样本数据对应的标识之间的差值,调整所述待训练模型中的参数。3.根据权利要求1或2所述的方法,其特征在于,所述当训练得到的模型对所述训练样本中的样本数据进行计算得到的标识,与所述样本数据对应的标识的差值小于预设阈值时,将训练得到的模型作为目标模型,包括:当训练得到的模型对所述训练样本中的样本数据进行计算得到的标识,与所述样本数据对应的标识的差值小于预设阈值时,生成训练停止命令,以用于所述集群服务器中的每个节点服务器基于所述训练停止命令停止训练;将训练得到的模型作为目标模型。4.根据权利要求3所述的方法,其特征在于,在训练得到目标模型后,所述方法还包括:训练得到所述目标模型的节点服务器,将所述目标模型发送给所述集群服务器中的其他节点服务器,以用于其他节点服务器基于所述目...

【专利技术属性】
技术研发人员:胡建猛
申请(专利权)人:乐视新生代北京文化传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1