多方联合建模方法、装置、设备及储存介质制造方法及图纸

技术编号:26971226 阅读:27 留言:0更新日期:2021-01-06 00:01
本公开提供一种基于分布式系统的多方联合建模方法,涉及机器学习、安全计算等领域。多方联合建模方法包括:对所述多个集群中的每一个集群包括的样本标识求交,得到交集样本标识以及所述多个集群中的每一个集群包括的与所述交集样本标识对应的集群样本数据,其中,所述多个集群中的每一个集群包括的所述样本标识和所述集群样本数据均分布保存在该相应集群的多个客户端中;对所述多个集群中的每一个集群的集群样本数据分别进行分桶,以得到所述多个集群中的每一个集群的集群分桶数据;基于样本标签和所述多个集群中的每一个集群的集群分桶数据,构建全局信息增益直方图;以及基于所述全局信息增益直方图,构建决策树模型。

【技术实现步骤摘要】
多方联合建模方法、装置、设备及储存介质
本公开涉及机器学习、安全计算等领域,更具体地,涉及一种多方联合建模方法、装置、设备及储存介质。
技术介绍
随着算法和大数据的发展,算法和算力已经不再是阻碍AI发展的瓶颈了。各个领域内真实有效的数据源才是最宝贵的资源。同时数据源之间存在着难以打破的壁垒,在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
根据本公开的一方面,提供了一种多方联合建模方法,包括:对多个集群中的每一个集群包括的样本标识求交,得到交集样本标识以及多个集群中的每一个集群包括的与交集样本标识对应的集群本文档来自技高网...

【技术保护点】
1.一种基于分布式系统的多方联合建模方法,其中,所述分布式系统包括多个集群,所述多个集群中的每一个集群包括一个服务器和多个客户端,所述方法包括:/n对所述多个集群中的每一个集群包括的样本标识求交,得到交集样本标识以及所述多个集群中的每一个集群包括的与所述交集样本标识对应的集群样本数据,其中,所述多个集群中的每一个集群包括的所述样本标识和所述集群样本数据均分布保存在该相应集群的多个客户端中;/n对所述多个集群中的每一个集群的集群样本数据分别进行分桶,以得到所述多个集群中的每一个集群的集群分桶数据;/n基于样本标签和所述多个集群中的每一个集群的集群分桶数据,构建全局信息增益直方图,其中,所述样本标...

【技术特征摘要】
1.一种基于分布式系统的多方联合建模方法,其中,所述分布式系统包括多个集群,所述多个集群中的每一个集群包括一个服务器和多个客户端,所述方法包括:
对所述多个集群中的每一个集群包括的样本标识求交,得到交集样本标识以及所述多个集群中的每一个集群包括的与所述交集样本标识对应的集群样本数据,其中,所述多个集群中的每一个集群包括的所述样本标识和所述集群样本数据均分布保存在该相应集群的多个客户端中;
对所述多个集群中的每一个集群的集群样本数据分别进行分桶,以得到所述多个集群中的每一个集群的集群分桶数据;
基于样本标签和所述多个集群中的每一个集群的集群分桶数据,构建全局信息增益直方图,其中,所述样本标签为每个样本的真实值,并且所述样本标签保存在所述多个集群中的一个特定集群;以及
基于所述全局信息增益直方图,构建决策树模型。


2.如权利要求1所述的多方联合建模方法,其中,所述集群样本数据包括保存在相应的所述多个客户端的客户端样本数据,所述集群样本数据和所述客户端样本数据均包括样本标识和至少一个特征,
其中,所述对所述多个集群中的每一个集群的集群样本数据分别进行分桶,以得到所述多个集群中的每一个集群的集群分桶数据包括:
针对所述多个集群中的每一个集群,遍历该集群的集群样本数据的所述至少一个特征;
基于当前特征的特征数据,生成至少一个数据桶;以及
整合所有特征对应的数据桶,得到该集群的集群分桶数据,其中,所述该集群的集群分桶数据包括所述该集群的集群样本数据的所述至少一个特征和与所述该集群的集群样本数据的所述至少一个特征中的每一个特征相应的一个或多个数据桶。


3.如权利要求2所述的多方联合建模方法,其中,所述基于当前特征的特征数据,生成至少一个数据桶包括:
判断所述当前特征的特征数据是否分布在同一个客户端;
响应于所述当前特征的特征数据分布在多个客户端,指示所述多个客户端中每一个客户端对各自客户端样本数据包括的所述当前特征的特征数据进行分桶,生成所述当前特征的至少一个待合并数据桶,并将所述至少一个待合并数据桶上传至所述多个客户端对应的服务器;以及
将接收到的所述多个客户端上传的所述至少一个待合并数据桶进行合并,生成所述至少一个数据桶,其中,所述至少一个数据桶中的每一个数据桶由一个或多个桶的值相同或相近的待合并数据桶合并而成,所述至少一个数据桶中的每一个数据桶的样本标识包括所述一个或多个待合并数据桶包括的全部样本标识,所述至少一个数据桶中的每一个数据桶的所属客户端包括所述一个或多个待合并数据桶的所属客户端。


4.如权利要求3所述的多方联合建模方法,其中,所述基于当前特征的特征数据,生成至少一个数据桶还包括:
将合并而成的所述至少一个数据桶中的每一个数据桶发送至该数据桶的所属客户端,其中,所述所属客户端的客户端分桶数据包括所述至少一个数据桶。


5.如权利要求4所述的多方联合建模方法,其中,所述基于当前特征的特征数据,生成至少一个数据桶还包括:
响应于当前特征的特征数据分布在同一个客户端,指示所述同一个客户端对所述当前特征的特征数据进行分桶,生成所述至少一个数据桶,并将所述至少一个数据桶上传至与所述同一个客户端相应的服务器,其中,所述同一个客户端的客户端分桶数据包括所述至少一个数据桶。


6.如权利要求5所述的多方联合建模方法,其中,所述多个集群包括第一集群和至少一个第二集群,所述第一集群的集群样本数据还包括所述样本标签,
其中,所述基于样本标签和所述多个集群中的每一个集群的集群分桶数据,构建全局信息增益直方图包括:
获取当前模型对与所述第一集群的集群分桶数据的每一个样本标识对应的每一个样本的预测值;
基于所述预测值和所述样本标签,计算一阶梯度数据和二阶梯度数据;以及
基于所述一阶梯度数据、所述二阶梯度数据和所述多个集群中的每一个集群的集群分桶数据,构建所述全局信息增益直方图。


7.如权利要求6所述的多方联合建模方法,其中,所述基于所述一阶梯度数据、所述二阶梯度数据和所述多个集群中的每一个集群的集群分桶数据,构建所述全局信息增益直方图包括:
将所述一阶梯度数据和所述二阶梯度数据加密后发送至所述至少一个第二集群中的每一个第二集群的服务器;
获取所述当前模型的至少一个待分裂节点,所述待分裂节点包括至少一个样本标识;
基于所述一阶梯度数据、所述二阶梯度数据、所述第一集群的集群分桶数据和所述至少一个待分裂节点,构建第一信息增益直方图;
接收来自所述至少一个第二集群中每一个的服务器的至少一个密文信息增益直方图;
将所述至少一个密文信息增益直方图解密,得到与所述至少一个密文信息增益直方图一一对应的至少一个第二信息增益直方图;以及
将所述第一信息增益直方图和所述至少一个第二信息增益直方图合并,得到所述全局信息增益直方图。


8.如权利要求7所述的多方联合建模方法,其中,所述基于所述一阶梯度数据、所述二阶梯度数据、所述第一集群的集群分桶数据和所述至少一个待分裂节点,构建第一信息增益直方图包括:
针对所述至少一个待分裂节点中的每一个待分裂节点,遍历所述第一集群的集群分桶数据的至少一个特征;
基于该待分裂节点和当前特征的特征数据,得到该待分裂节点的所述当前特征的第一信息增益子直方图或第一候选分裂增益;以及
将所述每一个待分裂节点的所述第一集群的集群分桶数据的至少一个特征中每一个特征的第一信息增益子直方图或第一候选分裂增益合并,得到所述第一信息增益直方图。

【专利技术属性】
技术研发人员:宋传园冯智吕亮亮
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1