【技术实现步骤摘要】
基于联邦学习的孤立森林模型构建和预测方法和装置
本说明书实施例涉及机器学习
,更具体地,涉及基于联邦学习构建孤立森林模型的方法和装置、以及基于联邦学习通过孤立森林模型预测对象异常性的方法和装置。
技术介绍
目前,越来越多的作为数据拥有方的互联网企业开始关注数据隐私和数据安全问题。孤立森林模型是一种预测异常对象的无监督学习模型,该模型例如可用于对用户行为进行分析来识别异常行为,从而保护用户资金的安全,比如盗用风险防控、欺诈风险防控等等。然而在上述场景下的数据建模往往是在数据融合(即数据中心化存储/可见)的条件下进行的,这样往往要求不同来源的数据需要完全暴露给对方才能完成建模分析工作,这在隐私数据的层面是有很大风险的。因此,需要一种更有效的保护私有数据的孤立森林模型构建和使用方案。
技术实现思路
本说明书实施例旨在提供一种更有效的保护私有数据的孤立森林模型构建和使用方案,以解决现有技术中的不足。为实现上述目的,本说明书一个方面提供一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计 ...
【技术保护点】
1.一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述方法由计算方的设备相对于所述模型中的第一树中的第一节点执行,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述方法包括:/n获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;/n从所述m个特征标识中随机选择一个特征标识;/n在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标 ...
【技术特征摘要】
1.一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述方法由计算方的设备相对于所述模型中的第一树中的第一节点执行,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述方法包括:
获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;
从所述m个特征标识中随机选择一个特征标识;
在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标识、所述多个样本标识和所述第一特征标识发送给所述第一数据方;
记录所述第一节点与所述第一数据方的对应关系;
从所述第一数据方接收与所述第一节点的两个子节点分别对应的信息,从而在保护各数据方私有数据的同时构建孤立森林模型以用于进行业务处理。
2.根据权利要求1所述的方法,所述第一节点为根节点,其中,获取与第一节点对应的多个样本标识包括,获取N个样本标识,从所述N个样本标识中随机获取n个样本标识,其中N>n。
3.根据权利要求1所述的方法,其中,所述两个子节点中包括第二节点,与所述第二节点对应的信息包括,所述第二节点为叶子节点,所述方法还包括,记录所述第二节点标识与所述第一数据方的对应关系。
4.根据权利要求3所述的方法,其中,所述两个子节点中包括第三节点,与所述第三节点对应的信息包括,分到所述第三节点的u个样本标识,其中,所述u个样本标识为所述多个样本标识中的一部分。
5.根据权利要求1所述的方法,其中,所述至少一个数据方为至少一个网络平台,所述多个样本与网络平台中的多个对象分别对应。
6.根据权利要求5所述的方法,其中,所述对象为以下任一项:消费者、交易、商户、商品。
7.一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述模型的第一树中包括第一节点,所述方法由所述至少两个数据方中的第一数据方的设备执行,所述第一数据方的设备中拥有各个样本的第一特征的特征值,并且存储有第一特征与预先确定的第一特征标识的对应关系,所述方法包括:
从所述计算方的设备接收第一节点的标识、多个样本标识和第一特征标识,其中,所述多个样本标识与多个样本分别对应;
基于本地存储第一特征标识与第一特征的对应关系,从所述多个样本各自的第一特征的特征值中随机选择一个特征值作为第一节点的分裂值;
记录所述第一节点与所述第一特征和所述分裂值的对应关系;
基于所述分裂值对所述多个样本进行分组,以构建所述第一节点的两个子节点;
分别确定所述两个子节点是否为叶子节点;
基于所述分组和确定的结果,将与两个子节点分别对应的信息发送给所述计算方的设备,从而在保护各数据方私有数据的同时构建孤立森林模型以用于进行业务处理。
8.根据权利要求7所述的方法,其中,所述两个子节点中包括第二节点,其中,与第二节点对应的信息包括,所述第二节点为叶子节点,所述方法还包括,计算并存储所述第二节点的节点深度。
9.一种基于联邦学习通过孤立森林模型预测对象异常性的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述计算方的设备中存储有所述模型中第一树的树结构、所述第一树中各个节点对应的数据方,所述方法由所述计算方的设备执行,包括:
获取第一对象的对象标识;
将所述对象标识发送给各个数据方;
从各个数据方设备接收该数据方在其对应的至少一个非叶子节点分别进行的对所述第一对象的至少一次划分结果;
基于第一树的树结构、以及来自所述至少两个数据方设备的在各个非叶子节点对所述第一对象的划分结果,确定所述第一对象落入的第一叶子节点;
基于所述第一树中的叶子节点各自对应的数据方,将所述第一叶子节点的标识发送给与所述第一叶子节点对应的第一数据方;
从所述第一数据方接收所述第一叶子节点的节点深度;
基于所述节点深度预测第一对象的异常性,以用于进行业务处理。
10.根据权利要求9所述的方法,还包括,基于对所述第一对象的预测结果,获取训练样本,以用于训练监督学习模型。
11.根据权利要求10所述的方法,还包括,基于所述训练好的监督学习模型的参数,优化所述孤立森林模型的样本特征。
12.一种基于联邦学习通过孤立森林模型预测对象异常性的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述至少两个数据方中的第一数据方的设备中记录有:其对应的所述第一树中第一节点的第一特征和分裂值,并且所述第一数据方的设备中存储有各个对象的第一特征的特征值,所述方法由所述第一数据方的设备执行,包括:
从所述计算方的设备接收第一对象的对象标识;
基于本地存储的第一节点的第一特征,从本地获取所述第一对象的第一特征的特征值;
基于本地存储的所述第一对象的第一特征的特征值和所述第一节点的分裂值,在第一节点对所述第一对象进行划分;
将所述划分的结果发送给所述计算方的设备,从而用于预测所述第一对象的异常性以用于进行业务处理。
13.根据权利要求12所述的方法,其中,所述第一数据方的设备中记录有所述第一树中第二节点的节点深度,所述方法还包括,从所述计算方的设备接收所述第一对象所落入的第二节点的标识,将所述第二节点的节点深度发送给所述计算方的设备。
14.一种基于联邦学习构建孤立森林模型的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述装置相对于所述模型中的第一树中的第一节点部署于计算方的设备中,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述装置包括:
获取单元,配置为,获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所...
【专利技术属性】
技术研发人员:宋博文,叶捷明,陈帅,顾曦,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。