【技术实现步骤摘要】
梯度提升树建模方法、装置以及终端
本专利技术涉及机器学习
,尤其涉及一种梯度提升树建模方法、装置以及终端。
技术介绍
梯度提升树(GBDT)算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。梯度提升树算法是传统机器学习算法里面对真实分布拟合的最好的几种算法之一。随着算法和大数据的发展,算法和算力已经不再是阻碍AI发展的瓶颈了,而各个领域内真实有效的数据源才是最宝贵的资源。然而,数据源之间存在着难以打破的壁垒,在大多数行业中,数据是以孤岛的形式存在的。由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。
技术实现思路
本专利技术实施例提供一种梯度提升树建模方法、装置以及终端,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种梯度提升树建模方法,包括:对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;对所述第一决策树的最优分裂点所在位置的节点进行 ...
【技术保护点】
1.一种梯度提升树建模方法,其特征在于,包括:/n对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;/n根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;/n根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;/n对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到第二决策树;/n所述第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;/n根据所述第一决策树至所述第N决策树,得到梯度提升树模型。/n
【技术特征摘要】
1.一种梯度提升树建模方法,其特征在于,包括:
对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;
根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述第一决策树的加密目标值;
根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点;
对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到第二决策树;
所述第一决策树经过预设训练轮数的迭代之后,生成第N决策树,N大于等于二;
根据所述第一决策树至所述第N决策树,得到梯度提升树模型。
2.根据权利要求1所述的方法,其特征在于,对所述第一决策树的目标值加密,得到第一决策树的加密目标值,包括:
第一端生成公钥和私钥,将所述公钥发送至第二端;
所述第一端根据所述公钥对所述第一决策树的目标值加密,并将所述第一决策树的加密目标值发送至所述第二端。
3.根据权利要求2所述的方法,其特征在于,根据所述第一决策树的目标值、所述第一数据交集、所述第一决策树的加密目标值以及所述第二数据交集,确定所述第一决策树的最优分裂点,包括:
所述第一端根据所述第一数据交集和所述第一决策树的目标值,计算所述第一决策树中每一个分裂位置的信息增益,并从所述第一决策树中所有分裂位置对应的信息增益中确定出最大的信息增益,作为第一端局部最大信息增益,所述第一端局部最大信息增益所在的分裂位置为第一端局部最优分裂点;
接收所述第二端发送的加密信息增益矩阵,所述加密信息增益矩阵是所述第一决策树中每一个分裂位置的加密信息增益构成的,所述加密信息增益是所述第二端根据所述第二数据交集和所述第一决策树的加密目标值得到的;
所述第一端根据所述私钥对所述加密信息增益矩阵进行解密,并从所述第一决策树中所有分裂位置对应的加密信息增益中确定出最大的加密信息增益,作为第二端局部最大信息增益,所述第二端局部最大信息增益所在的分裂位置为所述第二端局部最优分裂点;
所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点。
4.根据权利要求3所述的方法,其特征在于,所述第一端根据所述第一端局部最大信息增益和所述第二端局部最大信息增益,确定所述第一决策树的最优分裂点,包括:
所述第一端比较所述第一端局部最大信息增益和所述第二端局部最大信息增益;
在所述第一端局部最大信息增益大于所述第二端局部最大信息增益的情况下,确定所述第一端局部最优分裂点为所述第一决策树的最优分裂点;
在所述第一端局部最大信息增益小于所述第二端局部最大信息增益的情况下,确定所述第二端局部最优分裂点为所述第一决策树的最优分裂点。
5.根据权利要求4所述的方法,其特征在于,对所述第一决策树的最优分裂点所在位置的节点进行分裂,得到所述第二决策树,包括:
在所述第一端局部最优分裂点为所述第一决策树的最优分裂点情况下,所述第一端根据所述第一端局部最优分裂点所在位置的节点进行分裂,存储分裂的第一特征和值,得到第一分裂结果;
在所述第二端局部最优分裂点为所述第一决策树的最优分裂点情况下,所述第一端发送所述第二端局部最优分裂点至所述第二端;
所述第一端接收所述第二端发送的第二分裂结果,所述分裂结果是所述第二端根据所述第二端局部最优分裂点所在位置的节点进行分裂,存储分裂的第二特征和值得到的;
所述第一端根据所述第一分裂结果和所述第二分裂结果进行递归分裂,直至所有节点成为叶子节点,得到所述第二决策树。
6.一种梯度提升树建模装置,其特征在于,包括:
数据集求交模块,用于对具有标签值的第一样本数据集和多个第二样本数据集按照标识进行求交运算,得到具有标签值的第一数据交集和多个第二数据交集;
目标值加密模块,用于根据所述标签值以及前一决策树的预测值得到第一决策树的目标值,并对所述第一决策树的目标值加密,得到所述...
【专利技术属性】
技术研发人员:宋传园,冯智,张宇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。