训练模型的方法、装置及设备制造方法及图纸

技术编号:21344447 阅读:32 留言:0更新日期:2019-06-13 22:49
本发明专利技术公开了一种训练模型的方法、装置及设备,所述方法包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。本发明专利技术可以大大降低方案对参数服务器的依赖性,并且,由于基于接收到的其他节点发送的参数矩阵确定当前节点的下一轮训练的参数矩阵,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。

Method, device and equipment of training model

The invention discloses a method, apparatus and equipment for training model. The method includes: receiving the parameter matrix sent by other nodes in distributed cluster except the current node during the current round of training based on the parameter matrix of the current node; when the current node completes the current round of training, if the number of parameter matrices received is greater than or equal to the number of parameters matrices received. At the preset threshold, the next round of parameter matrix is determined based on the received parameter matrix and the parameter matrix obtained after the current node completes the current round of training, and the next round of training is controlled based on the next round of parameter matrix. The invention can greatly reduce the dependence of the scheme on the parameter server, and, since the parameter matrix of the next round of training of the current node is determined based on the parameter matrix sent by the other nodes received, the parameter matrix used in the training can be avoided being too single and the effect of the subsequent model training can be improved.

【技术实现步骤摘要】
训练模型的方法、装置及设备
本专利技术涉及机器学习
,尤其涉及一种训练模型的方法、装置及设备。
技术介绍
机器学习是人工智能领域的重要技术之一,其可利用样本数据集训练选定的机器学习模型,进而可利用训练好的模型进行特定工作。现有技术中当面对包含较大数据元(如,成套医学影像数据所组成的单个数据元等)的样本数据集时,通常采用分布式训练方案,即通过分布式集群中的多个节点对训练数据集进行训练,然后在每轮训练结束后将各个节点得到的模型参数发送给参数服务器进行均值化处理,进而各个节点再根据均值化以后的模型参数进行下一轮训练。然而,上述方案对参数服务器的依赖性比较强,一旦参数服务器发生故障,将会导致整个分布式集群无法运行。
技术实现思路
有鉴于此,本专利技术提出一种训练模型的方法、装置及设备以解决上述技术问题。为了达到上述目的,本专利技术所采用的技术方案为:根据本专利技术实施例的第一方面,提出了一种训练模型的方法,包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。根据本专利技术实施例的第二方面,提出了一种训练模型的装置,包括:参数矩阵接收模块,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;下轮参数确定模块,用于当所述当前节点完成所述本轮训练后,且接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;下轮训练控制模块,用于基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。根据本专利技术实施例的第三方面,提出了一种电子设备,所述电子设备包括:处理器;被配置为存储处理器可执行指令的存储器;其中,所述处理器被配置为:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。根据本专利技术实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。与现有技术相比较,本专利技术的训练模型的方法,通过在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵,并当所述当前节点完成所述本轮训练后,接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵,进而基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练,可以大大降低方案对参数服务器的依赖性,并且,由于基于接收到的其他节点发送的参数矩阵确定当前节点的下一轮训练的参数矩阵,可以避免训练所使用的参数矩阵过于单一,提升后续模型训练的效果。附图说明图1示出了根据本专利技术的第一示例性实施例的训练模型的方法的流程图;图2示出了根据本专利技术的第二示例性实施例的训练模型的方法的流程图;图3示出了根据本专利技术的第三示例性实施例的训练模型的方法的流程图;图4示出了根据本专利技术的第四示例性实施例的训练模型的方法的流程图;图5示出了根据本专利技术的一示例性实施例的训练模型的装置的结构框图;图6示出了根据本专利技术的另一示例性实施例的训练模型的装置的结构框图;图7示出了根据本专利技术的一示例性实施例的训练模型的电子设备的结构框图。具体实施方式以下将结合附图所示的具体实施方式对本专利技术进行详细描述。但这些实施方式并不限制本专利技术,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本专利技术的保护范围内。在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本专利技术可能采用术语第一、第二等来描述各种结构,但这些结构不应限于这些术语。这些术语仅用来将同一类型的结构彼此区分开。图1示出了根据本专利技术的第一示例性实施例的训练模型的方法的流程图;该实施例可以用于进行机器学习的分布式集群(如,多台服务器组成的服务器集群等)。如图1所示,该方法包括以下步骤S101-S103:在步骤S101中,在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵。在一实施例中,上述分布式集群中可以包括多个节点,其中,当前节点可以为该分布式集群中的任一服务器节点,本实施例对此不进行限定。在一实施例中,上述参数矩阵包括当前机器学习针对的模型参数所组成的矩阵。在一实施例中,分布式集群中的当前节点可以基于当前已确定的本轮参数矩阵进行本轮训练,并在本轮训练过程中接收该集群中的其他节点发送的参数矩阵。总的来说,分布式集群中的各个节点可以基于各自的本轮参数矩阵进行本轮训练,并在训练过程中接收其他节点发送的参数矩阵。在步骤S102中,当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。在一实施例中,当上述当前节点完成本轮训练后,可以统计当前接收到的参数矩阵的数量,并将该数量与预设阈值进行比较。在一实施例中,当确定接收到的参数矩阵的数量大于或等于预设阈值时,可以基于接收到的参数矩阵和当前节点完成本轮训练后得到的参数矩阵确定下一轮参数矩阵。其中,下一轮参数矩阵可以用于当前节点进行下一轮训练。在一实施例中,上述基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵的方式可以由开发人员根据实际需要进行设置,例如可以设置为计算接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵的均值或加权和等,本实施例对此不仅限定。在步骤S103中,基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。在一实施例中,当基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵后,可以基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练,即控制所述当前节点基于所述下一轮参数矩阵进行下一轮训练。由上述描述可知,本实施例通过在当前节点基于本轮参数矩阵进行本轮训练的过程中本文档来自技高网...

【技术保护点】
1.一种训练模型的方法,其特征在于,包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。

【技术特征摘要】
1.一种训练模型的方法,其特征在于,包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若接收到的参数矩阵的数量小于预设阈值,则基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若连续N个轮次接收到的参数矩阵的数量大于或等于预设阈值,则缩短所述预设时间,所述N为预设正整数。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:若检测到所述当前节点的训练效率低于所述分布式集群中各节点的平均训练效率,则减少所述当前节点的训练样本数量。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:若检测到所述当前节点的训练效率比所述平均训练效率高出预设比例,则恢复所述当前节点的训练样本数量。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:若检测到所述当前节点相比于所述其他节点最早完成预设轮数的训练,则基于所述当前节点最后得到的参数矩阵得到训练模型。8.一种训练模型的装置,其特征在于,包括:参数矩阵接收模块,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;下轮参数确定模块,用于当所述当前节点完成所述本轮训练后,且接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;下轮训练控制模块,用于基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。9.根据权利要求8所述的装置,其特征在于,所述下轮参数确定模块,还用于当接收到的参数矩阵的数量小...

【专利技术属性】
技术研发人员:何兴洋
申请(专利权)人:东软医疗系统股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1