The invention discloses a method, apparatus and equipment for training model. The method includes: receiving the parameter matrix sent by other nodes in distributed cluster except the current node during the current round of training based on the parameter matrix of the current node; when the current node completes the current round of training, if the number of parameter matrices received is greater than or equal to the number of parameters matrices received. At the preset threshold, the next round of parameter matrix is determined based on the received parameter matrix and the parameter matrix obtained after the current node completes the current round of training, and the next round of training is controlled based on the next round of parameter matrix. The invention can greatly reduce the dependence of the scheme on the parameter server, and, since the parameter matrix of the next round of training of the current node is determined based on the parameter matrix sent by the other nodes received, the parameter matrix used in the training can be avoided being too single and the effect of the subsequent model training can be improved.
【技术实现步骤摘要】
训练模型的方法、装置及设备
本专利技术涉及机器学习
,尤其涉及一种训练模型的方法、装置及设备。
技术介绍
机器学习是人工智能领域的重要技术之一,其可利用样本数据集训练选定的机器学习模型,进而可利用训练好的模型进行特定工作。现有技术中当面对包含较大数据元(如,成套医学影像数据所组成的单个数据元等)的样本数据集时,通常采用分布式训练方案,即通过分布式集群中的多个节点对训练数据集进行训练,然后在每轮训练结束后将各个节点得到的模型参数发送给参数服务器进行均值化处理,进而各个节点再根据均值化以后的模型参数进行下一轮训练。然而,上述方案对参数服务器的依赖性比较强,一旦参数服务器发生故障,将会导致整个分布式集群无法运行。
技术实现思路
有鉴于此,本专利技术提出一种训练模型的方法、装置及设备以解决上述技术问题。为了达到上述目的,本专利技术所采用的技术方案为:根据本专利技术实施例的第一方面,提出了一种训练模型的方法,包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。根据本专利技术实施例的第二方面,提出了一种训练模型的装置,包括:参数矩阵接收模块,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;下轮参数确定模块,用于当所述当前节点完 ...
【技术保护点】
1.一种训练模型的方法,其特征在于,包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。
【技术特征摘要】
1.一种训练模型的方法,其特征在于,包括:在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;当所述当前节点完成所述本轮训练后,若接收到的参数矩阵的数量大于或等于预设阈值,则基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若接收到的参数矩阵的数量小于预设阈值,则基于当前时刻以后预设时间内接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若连续N个轮次接收到的参数矩阵的数量大于或等于预设阈值,则缩短所述预设时间,所述N为预设正整数。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述当前节点完成所述本轮训练后得到的参数矩阵发送给所述其他节点。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:若检测到所述当前节点的训练效率低于所述分布式集群中各节点的平均训练效率,则减少所述当前节点的训练样本数量。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:若检测到所述当前节点的训练效率比所述平均训练效率高出预设比例,则恢复所述当前节点的训练样本数量。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:若检测到所述当前节点相比于所述其他节点最早完成预设轮数的训练,则基于所述当前节点最后得到的参数矩阵得到训练模型。8.一种训练模型的装置,其特征在于,包括:参数矩阵接收模块,用于在当前节点基于本轮参数矩阵进行本轮训练的过程中,接收分布式集群中除所述当前节点之外的其他节点发送的参数矩阵;下轮参数确定模块,用于当所述当前节点完成所述本轮训练后,且接收到的参数矩阵的数量大于或等于预设阈值时,基于接收到的参数矩阵和所述当前节点完成所述本轮训练后得到的参数矩阵确定下一轮参数矩阵;下轮训练控制模块,用于基于所述下一轮参数矩阵控制所述当前节点进行下一轮训练。9.根据权利要求8所述的装置,其特征在于,所述下轮参数确定模块,还用于当接收到的参数矩阵的数量小...
【专利技术属性】
技术研发人员:何兴洋,
申请(专利权)人:东软医疗系统股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。