一种分布式集群训练方法和装置制造方法及图纸

技术编号：16345828 阅读：24 留言：0更新日期：2017-10-03 22:18

本申请实施例提供了一种分布式集群训练方法和装置，涉及机器学习技术领域。所述方法包括：读取样本集；所示样本集包括至少一条样本数据；在接收到汇集指令之前，利用所述样本数据和当前权重，代入目标模型训练函数进行迭代训练，得到第一梯度，并且如果有多轮迭代训练，则基于前一次训练得到的第一梯度生成第一权重作为后一轮迭代训练的当前权重；如果接收到汇集指令，则将所述第一梯度发送至汇集服务器；所述汇集指令由调度服务器在集群系统环境符合阈值条件时发出；所述汇集服务器汇总各第一梯度并计算第二权重；接收汇集服务器发送的第二权重以更新当前权重。本申请降低了网络通信量，降低对交换机的影响，避免影响整个集群的使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式集群训练方法和装置
本申请涉及机器学习
，特别是涉及一种分布式集群训练方法和一种分布式集群训练装置。
技术介绍
随着大数据的应用，很多基于大数据的目标模型，比如预测用户对商品的喜好的目标模型，都需要利用相应的样本数据对目标模型中的权重进行训练。该权重可以理解为目标模型的参数，比如以一个简单的模型y＝ax1+bx2+cx3，其中的a、b、c为权重，x1、x2、x3为输入量，y为输出量。而上述目标模型都需要利用机器学习训练。机器学习训练一般包括单机训练和集群训练，单机训练就是利用所有样本，计算F(X)(F为损失函数，X为权重)的梯度：▽F(Xt-1)，然后更新权重：Xt＝Xt-1-α▽F(Xt-1)，一直这样迭代，直到收敛；而集群训练，就是先按照一定规则，将训练样本分到各个机器上(各机器上数据都不一样)，每个机器计算出梯度，然后利用reduce技术，将梯度汇总，并进行权重更新。重复上述过程，直到收敛。事实上，由于现在数据量巨大，集群训练已经成为工业界标配。而单机上进行训练，当样本数据的数据量很大时，会出现因为数据量太大导致内存加载不下，导致无法进行训练。在单机上训练，没有通信(网络)代价，但无法支撑大数据(比如所有用户在最近2周内的浏览日志数据)。基于单机训练的上述问题，在先技术中采用了在分布式集群中执行机器学习任务。现有集群训练方案：(1)将数据集T，按照一定规则，切分成N份，得到T＝{T1,T2,…,Tn}；(2)每个训练服务器得到一份数据，设为Tx；(3)每个训练服务器利用得到的数据，计算对应的梯度▽FTx；(4)进行梯度汇总得到总梯度：...
一种分布式集群训练方法和装置

【技术保护点】
一种分布式集群训练方法，其特征在于，包括：读取样本集；所示样本集包括至少一条样本数据；在接收到汇集指令之前，利用所述样本数据和当前权重，代入目标模型训练函数进行迭代训练，得到第一梯度；所述汇集指令由调度服务器在集群系统环境符合阈值条件时发出；其中，如果在接收到汇集指令之前，有多轮迭代训练，则基于前一次训练得到的第一梯度生成第一权重作为后一轮迭代训练的当前权重；如果接收到汇集指令，则将所述第一梯度发送至汇集服务器；所述汇集服务器汇总各第一梯度并计算第二权重；接收汇集服务器发送的第二权重以更新当前权重。

【技术特征摘要】
1.一种分布式集群训练方法，其特征在于，包括：读取样本集；所示样本集包括至少一条样本数据；在接收到汇集指令之前，利用所述样本数据和当前权重，代入目标模型训练函数进行迭代训练，得到第一梯度；所述汇集指令由调度服务器在集群系统环境符合阈值条件时发出；其中，如果在接收到汇集指令之前，有多轮迭代训练，则基于前一次训练得到的第一梯度生成第一权重作为后一轮迭代训练的当前权重；如果接收到汇集指令，则将所述第一梯度发送至汇集服务器；所述汇集服务器汇总各第一梯度并计算第二权重；接收汇集服务器发送的第二权重以更新当前权重。2.根据权利要求1所述的方法，其特征在于，所述汇集指令由调度服务器在集群系统环境符合阈值条件时发出，包括：所述汇集指令由调度服务器在整个集群的集群网络利用率符合第一阈值条件时发出，和/或由调度服务器在整个集群的集群故障率符合第二阈值条件时发出。3.根据权利要求2所述的方法，其特征在于：所述第一阈值条件包括：集群网络利用率低于第一阈值；所述第二阈值条件包括：集群故障率低于第二阈值。4.根据权利要求1所述的方法，其特征在于，所述样本数据包括时间信息，在读取样本集的步骤之后，还包括：利用每条样本数据的时间信息，计算所述样本数据的第三权重；当所述第三权重小于第三阈值，则丢弃相应的样本数据。5.根据权利要求4所述的方法，其特征在于，所述利用每条样本数据的时间信息，计算所述样本数据的第三权重的步骤包括：将每条样本数据的时间信息，代入指数函数的负的指数参数，计算第三权重。6.根据权利要求4所述的方法，其特征在于，在利用每条样本数据的时间信息，计算所述样本数据的第三权重的步骤之前，还包括：对样本集中的各样本数据进行归并；对归并后的样本数据，记录所述样本数据的归并数量。7.根据权利要求6所述的方法，其特征在于，所述利用每条样本数据的时间信息，计算所述样本数据的第三权重的步骤，包括：利用每条样本数据的时间信息，计算降权系数；计算所述降权系数与归并数量之积，得到第三权重。8.根据权利要求4所述的方法，其特征在于，如果接收到汇集指令，还包括：将各个样本数据的第三权重进行汇总得到的第一系数发送至汇集服务器；则，所述汇集服务器汇总各第一梯度并计算第二权重包括：根据各第一梯度及与各第一梯度相应的第一系数，进行加权计算得到第二梯度；根据第二梯度计算第二权重。9.根据权利要求1-8其中之一所述的方法，其特征在于，所述汇集服务器汇总各第一梯度并计算第二权重之后，还包括：所述汇集服务器将新得到的第二权重进行备份。10.根据权利要求9所述的方法，其特征在于，所述汇集服务器将新得到的第二权重进行备份包括：所述汇集服务器判断新得到的第二权重与至少前一次备份的第二权重之间的变化量是否超过变化阈值；如果超过变化阈值，则对所述新得到的第二权重进行备份。11.根据权利要求9所述的方法，其特征在于，所述汇集服务器将新得到的第二权重进行备份之后，还包括：将所述第二权重代入目标模型，并输出至业务服务器。12.一种分布式集群训练装置，其特征在...

【专利技术属性】
技术研发人员：周俊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人