使用联邦学习模型进行人群包统计的方法及装置制造方法及图纸

技术编号:38362406 阅读:35 留言:0更新日期:2023-08-05 17:30
本公开的实施例提供一种使用联邦学习模型进行人群包统计的方法及装置。联邦学习模型包括多棵树。参与联邦学习的第一参与方拥有多棵树中的每棵树的叶子节点的权重矩阵。参与联邦学习的第二参与方拥有多棵树中的每棵树针对人群包生成的预测结果矩阵。该方法由第一参与方执行。该方法包括:将多棵树的权重矩阵拼接成第一拼接矩阵;获得由第二参与方生成的第二拼接矩阵,第二拼接矩阵通过将多棵树的预测结果矩阵进行按列拼接并执行按列乱序操作来生成;将第一拼接矩阵与第二拼接矩阵进行矩阵相乘以获得预测概率矩阵;以及根据预测概率矩阵来确定人群包的统计信息。阵来确定人群包的统计信息。阵来确定人群包的统计信息。

【技术实现步骤摘要】
使用联邦学习模型进行人群包统计的方法及装置


[0001]本公开的实施例涉及数据处理
,具体地,涉及使用联邦学习模型进行人群包统计的方法及装置。

技术介绍

[0002]基于XGBoost的联邦学习模型(也可称为XGBoost模型)是常用隐私计算模型之一。如今在许多应用场景中XGBoost模型已被广泛使用,例如金融风控,广告营销,疾病预测等。在银行、电商等公司的应用场景中,往往会采用XGBoost模型来作为主要的机器学习模型。在实际应用中,有时需要对人群包做统计,例如预测人群包的兴趣偏好或者所属类别,从而为下游任务提供有意义的参考依据。在使用XGBoost模型进行人群包统计的过程中,如果人群包中的个体的模型预测值等信息被定位,则不能很好保护个体信息,难以满足合规需求。因此期望能够在不暴露个体信息的情况下进行人群包统计。

技术实现思路

[0003]本文中描述的实施例提供了一种使用联邦学习模型进行人群包统计的方法、装置以及存储有计算机程序的计算机可读存储介质。
[0004]根据本公开的第一方面,提供了一种使用联邦学习模型进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种使用联邦学习模型进行人群包统计的方法,其特征在于,所述联邦学习模型包括多棵树,参与联邦学习的第一参与方拥有所述多棵树中的每棵树的叶子节点的权重矩阵,参与所述联邦学习的第二参与方拥有所述多棵树中的每棵树针对所述人群包生成的预测结果矩阵,所述方法由所述第一参与方执行,所述方法包括:将所述多棵树的所述权重矩阵拼接成第一拼接矩阵;获得由所述第二参与方生成的第二拼接矩阵,所述第二拼接矩阵通过将所述多棵树的所述预测结果矩阵进行按列拼接并执行按列乱序操作来生成;将所述第一拼接矩阵与所述第二拼接矩阵进行矩阵相乘以获得预测概率矩阵;以及根据所述预测概率矩阵来确定所述人群包的统计信息。2.根据权利要求1所述的方法,其特征在于,根据所述预测概率矩阵来确定所述人群包的统计信息包括:根据所述预测概率矩阵来生成预测类别矩阵,所述预测类别矩阵指示所述人群包中的每个样本的预测类别;按照所述预测类别矩阵所指示的预测类别对所述预测概率矩阵中的预测概率进行聚合;统计每个预测类别中的样本数量和预测概率均值;以及根据每个预测类别中的样本数量和预测概率均值来确定所述人群包的统计标签。3.根据权利要求2所述的方法,其特征在于,根据所述预测概率矩阵来生成预测类别矩阵包括:在二分类场景下,确定所述预测概率矩阵中针对每个样本的预测概率是否超过预设的概率阈值;响应于任一样本的预测概率高于所述概率阈值,确定该样本的预测类别为第一类别;响应于任一样本的预测概率低于或者等于所述概率阈值,确定该样本的预测类别为第二类别;在多分类场景下,确定所述预测概率矩阵中针对每个样本的多个预测概率中的最大预测概率,其中,所述多个预测概率中的每个预测概率对应一个类别;以及针对每个样本,确定该样本的预测类别为针对该样本的最大预测概率所对应的类别。4.根据权利要求1至3中任一项所述的方法,其特征在于,获得由所述第二参与方生成的第二拼接矩阵包括:接收由所述第二参与方根据所述第二拼接矩阵生成的压缩矩阵;以及根据所述压缩矩阵来生成所述第二拼接矩阵;其中,所述多棵树中的每棵树所生成的预测结果矩阵对应所述压缩矩阵的一行,所述压缩矩阵的同一行中的每一列记录与该列相对应的样本在与该行相对应的预测结果矩阵中的预测结果。5.一种使用联邦学习模型进行人群包统计的装置,其特征在于,所述联邦学习模型包括多棵树,参与联邦学习的第一参与方拥有所述多棵树中的每棵树的叶子节点的权重矩阵,参与所述联邦学习的第二参与方拥有所述多棵树中的每棵树针对所述人群包生成的预测结果矩阵,所述装置作为所述第一参与方,所述装置包括:至少一个处理器;以及
存储有计算机程序的至少一个存储器;其中,当所述计算机程序由所述至少一个处理器执行时,使得所述装置执行根据权利要求1至4中任一项所述的方法的步骤。6.一种使用联邦学习模型进行人群包统计的方法,其特征在于,所述联邦学习模型包括多棵树,参与联邦学习的第一参与方拥有所述多棵树中的每棵树的叶子节点的权重矩阵,参与所述联邦学习的第二参与方拥有所述多棵树中的每棵树针对所述人群包生成的预测结果矩阵,所述方法由所述第二参与方执行,所述方法包括:将所述多棵树的预测结果矩阵进行按列拼接以生成第三拼接矩阵;对所述第三拼接矩阵执行按列乱序操作以生成第二拼接矩阵;以及向所述第一参与方提供所述第二拼接矩阵的相关信息,以便所述第一参与方根据...

【专利技术属性】
技术研发人员:尤志强卞阳王兆凯张伟奇
申请(专利权)人:北京富算科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1