梯度提升树建模方法、装置以及终端制造方法及图纸

技术编号:26651295 阅读:31 留言:0更新日期:2020-12-09 00:52
本发明专利技术实施例提出梯度提升树建模方法、装置及终端,方法包括:对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;根据标签值得到第一决策树的目标值,并对第一决策树的目标值加密,得到第一决策树的加密目标值;根据第一决策树的目标值、第一数据交集、第一决策树的加密目标值以及第二数据交集,确定第一决策树的最优分裂点;对第一决策树的最优分裂点所在位置的节点进行分裂,得到第二决策树;第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;根据第一决策树至第N决策树,得到梯度提升树模型。多方联合梯度提升树建模,不会泄露各自隐私数据。

【技术实现步骤摘要】
梯度提升树建模方法、装置以及终端
本专利技术涉及机器学习
,尤其涉及一种梯度提升树建模方法、装置以及终端。
技术介绍
梯度提升树(GBDT)算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。梯度提升树算法是传统机器学习算法里面对真实分布拟合的最好的几种算法之一。随着算法和大数据的发展,算法和算力已经不再是阻碍AI发展的瓶颈了,而各个领域内真实有效的数据源才是最宝贵的资源。然而,数据源之间存在着难以打破的壁垒,在大多数行业中,数据是以孤岛的形式存在的。由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。
技术实现思路
本专利技术实施例提供一种梯度提升树建模方法、装置以及终端,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种梯度提升树建模方法,包括:对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到所述第二决策树;所述第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;根据所述第一决策树至所述第N决策树,得到梯度提升树模型。在一种实施方式中,对所述第一决策树的目标值加密,得到第一决策树的加密目标值,包括:第一端生成公钥和私钥,将所述公钥发送至第二端;所述第一端根据所述公钥对所述第一决策树的目标值加密,并将所述第一决策树的加密目标值发送至所述第二端。在一种实施方式中,根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点,包括:所述第一端根据所述第一数据交集和所述第一决策树的目标值,计算所述第一决策树中每一个分裂位置的信息增益,并从所述第一决策树中所有分裂位置对应的信息增益中确定出最大的信息增益,作为第一端局部最大信息增益,所述第一端局部最大信息增益所在的分裂位置为第一端局部最优分裂点;接收所述第二端发送的加密信息增益矩阵,所述加密信息增益矩阵是所述第一决策树中每一个分裂位置的加密信息增益构成的,所述加密信息增益是所述第二端根据所述第二数据交集和所述第一决策树的加密目标值得到的;所述第一端根据所述私钥对所述加密信息增益矩阵进行解密,并从所述第一决策树中所有分裂位置对应的加密信息增益中确定出最大的加密信息增益,作为第二端局部最大信息增益,所述第二端局部最大信息增益所在的分裂位置为所述第二端局部最优分裂点;所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点。在一种实施方式中,所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点,包括:所述第一端比较所述第一端局部最大信息增益和所述第二端局部最大信息增益;在所述第一端局部最大信息增益大于所述第二端局部最大信息增益的情况下,确定所述第一端局部最优分裂点为所述第一决策树的最优分裂点;在所述第一端局部最大信息增益小于所述第二端局部最大信息增益的情况下,确定所述第二端局部最优分裂点为所述第一决策树的最优分裂点。在一种实施方式中,对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到所述第二决策树,包括:在所述第一端局部最优分裂点为所述第一决策树的最优分裂点情况下,所述第一端根据所述第一端局部最优分裂点所在位置的节点进行分裂,存储分裂的第一特征和值,得到第一分裂结果;在所述第二端局部最优分裂点为所述第一决策树的最优分裂点情况下,所述第一端发送所述第二端局部最优分裂点至所述第二端;所述第一端接收所述第二端发送的第二分裂结果,所述分裂结果是所述第二端根据所述第二端局部最优分裂点所在位置的节点进行分裂,存储分裂的第二特征和值得到的;所述第一端根据所述第一分裂结果和所述第二分裂结果进行递归分裂,直至所有节点成为叶子节点,得到所述第二决策树。第二方面,本专利技术实施例提供了一种梯度提升树建模装置,包括:数据集求交模块,用于对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;目标值加密模块,用于根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;最优分裂点确定模块,用于根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;新决策树生成模块,用于对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到所述第二决策树;所述第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;梯度提升树模型生成模块,用于根据所述第一决策树至所述第N决策树,得到梯度提升树模型。在一种实施方式中,所述目标值加密模块,包括:密钥生成单元,用于第一端生成公钥和私钥,将所述公钥发送至第二端;目标值加密单元,用于所述第一端根据所述公钥对所述第一决策树的目标值加密,并将所述第一决策树的加密目标值发送至所述第二端。在一种实施方式中,所述最优分裂点确定模块,包括:所述第一端局部信息增益计算单元,用于第一端根据所述第一数据交集和所述第一决策树的目标值,计算所述第一决策树中每一个分裂位置的信息增益,并从所述第一决策树中所有分裂位置对应的信息增益中确定出最大的信息增益,作为第一端局部最大信息增益,所述第一端局部最大信息增益所在的分裂位置为第一端局部最优分裂点;加密信息增益矩阵接收单元,用于接收所述第二端发送的加密信息增益矩阵,所述加密信息增益矩阵是所述第一决策树中每一个分裂位置的加密信息增益构成的,所述加密信息增益是所述第二端根据所述第二数据交集和所述第一决策树的加密目标值得到的;第二端局部信息增益计算单元,用于所述第一端根据所述私钥对所述加密信息增益矩阵进行解密,并从所述第一决策树中所有分裂位置对应的加密信息增益中确定出最大的加密信息增益,作为第二端局部最大信息增益,所述第二端局部最大信息增益所在的分裂位置为所述第二端局部最优分裂点;第一决策树的最优分裂点确定单元,用于所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点。在一种实施方式中,所述本文档来自技高网...

【技术保护点】
1.一种梯度提升树建模方法,其特征在于,包括:/n对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;/n根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;/n根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;/n对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到第二决策树;/n所述第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;/n根据所述第一决策树至所述第N决策树,得到梯度提升树模型。/n

【技术特征摘要】
1.一种梯度提升树建模方法,其特征在于,包括:
对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;
根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;
根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;
对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到第二决策树;
所述第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;
根据所述第一决策树至所述第N决策树,得到梯度提升树模型。


2.根据权利要求1所述的方法,其特征在于,对所述第一决策树的目标值加密,得到第一决策树的加密目标值,包括:
第一端生成公钥和私钥,将所述公钥发送至第二端;
所述第一端根据所述公钥对所述第一决策树的目标值加密,并将所述第一决策树的加密目标值发送至所述第二端。


3.根据权利要求2所述的方法,其特征在于,根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点,包括:
所述第一端根据所述第一数据交集和所述第一决策树的目标值,计算所述第一决策树中每一个分裂位置的信息增益,并从所述第一决策树中所有分裂位置对应的信息增益中确定出最大的信息增益,作为第一端局部最大信息增益,所述第一端局部最大信息增益所在的分裂位置为第一端局部最优分裂点;
接收所述第二端发送的加密信息增益矩阵,所述加密信息增益矩阵是所述第一决策树中每一个分裂位置的加密信息增益构成的,所述加密信息增益是所述第二端根据所述第二数据交集和所述第一决策树的加密目标值得到的;
所述第一端根据所述私钥对所述加密信息增益矩阵进行解密,并从所述第一决策树中所有分裂位置对应的加密信息增益中确定出最大的加密信息增益,作为第二端局部最大信息增益,所述第二端局部最大信息增益所在的分裂位置为所述第二端局部最优分裂点;
所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点。


4.根据权利要求3所述的方法,其特征在于,所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点,包括:
所述第一端比较所述第一端局部最大信息增益和所述第二端局部最大信息增益;
在所述第一端局部最大信息增益大于所述第二端局部最大信息增益的情况下,确定所述第一端局部最优分裂点为所述第一决策树的最优分裂点;
在所述第一端局部最大信息增益小于所述第二端局部最大信息增益的情况下,确定所述第二端局部最优分裂点为所述第一决策树的最优分裂点。


5.根据权利要求4所述的方法,其特征在于,对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到所述第二决策树,包括:
在所述第一端局部最优分裂点为所述第一决策树的最优分裂点情况下,所述第一端根据所述第一端局部最优分裂点所在位置的节点进行分裂,存储分裂的第一特征和值,得到第一分裂结果;
在所述第二端局部最优分裂点为所述第一决策树的最优分裂点情况下,所述第一端发送所述第二端局部最优分裂点至所述第二端;
所述第一端接收所述第二端发送的第二分裂结果,所述分裂结果是所述第二端根据所述第二端局部最优分裂点所在位置的节点进行分裂,存储分裂的第二特征和值得到的;
所述第一端根据所述第一分裂结果和所述第二分裂结果进行递归分裂,直至所有节点成为叶子节点,得到所述第二决策树。


6.一种梯度提升树建模装置,其特征在于,包括:
数据集求交模块,用于对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;
目标值加密模块,用于根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述...

【专利技术属性】
技术研发人员:宋传园冯智张宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1