保护隐私安全的多方联合进行特征评估的方法及装置制造方法及图纸

技术编号:23765259 阅读:17 留言:0更新日期:2020-04-11 19:29
本说明书实施例提供了保护隐私安全的多方联合进行特征评估的方法和装置。该多方至少包括存储有第一样本集的第一设备和存储有第二样本集的第二设备,该方法应用于第一设备;该方法包括:对第一样本集中各样本的初始ID进行加密,并将得到的第一样本集的第一次加密ID和标签发送给第二设备;从第二设备接收第二样本集的第一次加密ID和所在分箱的标识,以及第一样本集的第二次加密ID和标签;对第二样本集的第一次加密ID进行加密,得到第二样本集的第二次加密ID;根据第二样本集的第二次加密ID和第一样本集的第二加密ID确定共有样本;根据共有样本的标签、所在分箱的标识计算特征的信息价值,以针对机器学习模型进行特征选择。

The method and device of multi-party joint feature evaluation to protect privacy and security

【技术实现步骤摘要】
保护隐私安全的多方联合进行特征评估的方法及装置
本说明书一个或多个实施例涉及计算机信息处理领域,尤其涉及一种保护隐私安全的多方联合进行特征评估的方法及装置。
技术介绍
机器学习所需要的数据往往会涉及到多个领域。例如在基于机器学习的商户分类分析场景中,电子支付平台拥有商户的交易流水数据,电子商务平台存储有商户的销售数据,银行机构拥有商户的借贷数据。数据往往以孤岛的形式存在。由于行业竞争、数据安全、用户隐私等问题,数据整合面临着很大阻力,将分散在各个平台的数据整合在一起训练机器学习模型难以实现。在保证数据不泄露的前提下,使用多方数据联合训练机器学习模型变成目前的一大挑战。为此,提出有联邦学习(FederatedLearning)方案。通常,利用联邦学习(FederatedLearning)算法训练机器学习模型需要标签相关特征,因此,联邦学习的第一步是进行特征筛选。目前,较为常用的特征筛选方案为计算特征的信息价值(InformationValue,IV),以此来评估该特征和标签的相关性。计算特征的信息价值需要用到标签和特征数据。其中,计算非标签持有方的特征的信息价值需要标签持有方的标签数据,但标签持有方通常不愿意直接向非标签持有方透露的标签和用户的对应关系(即黑白名单库)。并且,非标签持有方也不愿意把其用户和特征数据透露给标签持有方。另外,利用联邦学习(FederatedLearning)需要各平台共有的用户,以进行联合训练。而对于任一方而言,用户以及用户与标签(或特征)的对应关系都为隐私数据。因此,需要一种能够在各方未知其他方的用户的情况下,以及在标签和特征数据隔离的情况下,计算特征的信息价值的方案。
技术实现思路
本说明书一个或多个实施例描述了一种保护隐私安全的多方联合进行特征评估的方法及装置,可以在双方未知对方用户以及在标签和特征数据隔离的情况下,计算双方共有用户的特征的信息价值。根据第一方面,提供了一种保护隐私安全的多方联合进行特征评估的方法,所述多方至少包括第一设备和第二设备,第一设备存储有第一样本集和其中各样本的标签,第二设备存储有第二样本集,所述方法应用于第一设备;所述方法包括:使用第一密钥对第一样本集中各样本的初始ID进行加密,得到第一样本集中各样本的第一次加密ID;向所述第二设备发送第一交换信息,其中至少包括,第一样本集中每个样本的第一次加密ID和标签;从所述第二设备分别接收第二交换信息和第三交换信息,其中,所述第二交换信息包括,由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签,且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱;所述第三交换信息包括,针对第二样本集中每一个样本,由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识,所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到;使用所述第一密钥,对所述第三交换信息中各样本的第一次加密ID进行二次加密,得到第一加密集合;基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本;基于共有样本中各样本的标签、所在第一分箱的标识,确定所述第一特征的信息价值,用以针对机器学习模型进行特征选择。在一些实施例中,所述方法还包括:在向第二设备发送第一交换信息之前,基于第一样本集中各样本的第二特征的特征值,将第一样本集分成多个第二分箱,并将第一样本集中每一个样本所在第二分箱的标识包括在所述第一交换信息中;在得到所述第一加密集合之后,扰乱第二样本集中各样本的相对顺序,得到第四交换信息;向所述第二设备发送所述第四交换信息,以便所述第二设备基于所述第四交换信息中的第二次加密ID和第二加密集合中各样本的第二次加密ID确定共有样本,并基于共有样本中各样本的标签、所在第二分箱的标识,确定所述第二特征的信息价值,其中第二加密集合是使用所述第二密钥对所述第一交换信息中的第一次加密ID进行二次加密得到的。在一些实施例中,所述基于第一样本集中各样本的第二特征的特征值,将第一样本集分成多个第二分箱包括:根据等频分箱、等距分箱、卡方分箱中任一项,将第一样本集分成所述多个第二分箱。在一些实施例中,第一样本集中各样本的初始ID和第二样本集中各样本的初始ID均为正整数;在使用第一密钥对第一样本集中各样本的初始ID进行加密之前,所述方法还包括:确定大于第一样本集中各样本的初始ID中最大初始ID,且大于第二样本集中各样本的初始ID中最大初始ID的第一质数;确定与第一质数互质的第一正整数为所述第一密钥。在一些实施例中,所述使用第一密钥对第一样本集中各样本的初始ID进行加密,得到第一样本集中各样本的第一次加密ID包括:对于第一样本集中每一个样本,确定该样本初始ID和所述第一密钥的乘积除以所述第一质数的余数为该样本的第一次加密ID。在一些实施例中,第一样本集包括标签为正的多个样本和标签为负的多个样本;所述基于共有样本中各样本的标签、所在第一分箱的标识,确定所述第一特征的信息价值包括:确定共有样本中落入具有第一标识的第一分箱中且标签为正的样本个数,相对于共有样本中标签为正的样本总个数的第一比例;确定共有样本中落入所述具有第一标识的第一分箱中且标签为负的样本个数,相对于共有样本中标签为负的样本总个数的第二比例;基于各个标识的第一分箱分别对应的所述第一比例,和所述第二比例,确定共有样本的第一特征的信息价值。在一些实施例中,所述第一样本集中的样本包括用户样本,所述机器学习模型为用户分类模型;或者,所述第一样本集中的样本包括业务样本,所述机器学习模型为业务处理模型。根据第二方面,提供了一种保护隐私安全的多方联合进行特征评估的方法,所述多方至少包括第一设备和第二设备,所述第一设备存储有第一样本集和其中各样本的标签,所述第二设备存储有第二样本集,所述方法应用于第二设备;所述方法包括:从第一设备接收第一交换信息,其中至少包括,由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签;使用第二密钥,对所述第一交换信息中各样本的第一次加密ID进行二次加密,得到第二加密集合,然后扰乱所述第二加密集合中各样本的相对顺序;向所述第一设备发送第二交换信息,所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签;使用第二密钥对第二样本集中各个样本的初始ID进行加密,得到第二样本集中第一次加密ID;基于第二样本集中各样本的第一特征的特征值,将第二样本集分成多个第一分箱;向所述第一设备发送第三交换信息,所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识,以便所述第一设备使用第一密钥对第三交换信息中的第一次加本文档来自技高网
...

【技术保护点】
1.一种保护隐私安全的多方联合进行特征评估的方法,所述多方至少包括第一设备和第二设备,第一设备存储有第一样本集和其中各样本的标签,第二设备存储有第二样本集,所述方法应用于第一设备;所述方法包括:/n使用第一密钥对第一样本集中各样本的初始ID进行加密,得到第一样本集中各样本的第一次加密ID;/n向所述第二设备发送第一交换信息,其中至少包括,第一样本集中每个样本的第一次加密ID和标签;/n从所述第二设备分别接收第二交换信息和第三交换信息,其中,所述第二交换信息包括,由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签,且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱;所述第三交换信息包括,针对第二样本集中每一个样本,由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识,所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到;/n使用所述第一密钥,对所述第三交换信息中各样本的第一次加密ID进行二次加密,得到第一加密集合;/n基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本;/n基于共有样本中各样本的标签、所在第一分箱的标识,确定所述第一特征的信息价值,用以针对机器学习模型进行特征选择。/n...

【技术特征摘要】
1.一种保护隐私安全的多方联合进行特征评估的方法,所述多方至少包括第一设备和第二设备,第一设备存储有第一样本集和其中各样本的标签,第二设备存储有第二样本集,所述方法应用于第一设备;所述方法包括:
使用第一密钥对第一样本集中各样本的初始ID进行加密,得到第一样本集中各样本的第一次加密ID;
向所述第二设备发送第一交换信息,其中至少包括,第一样本集中每个样本的第一次加密ID和标签;
从所述第二设备分别接收第二交换信息和第三交换信息,其中,所述第二交换信息包括,由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签,且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱;所述第三交换信息包括,针对第二样本集中每一个样本,由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识,所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到;
使用所述第一密钥,对所述第三交换信息中各样本的第一次加密ID进行二次加密,得到第一加密集合;
基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本;
基于共有样本中各样本的标签、所在第一分箱的标识,确定所述第一特征的信息价值,用以针对机器学习模型进行特征选择。


2.根据权利要求1所述的方法,其中,所述方法还包括:
在向第二设备发送第一交换信息之前,基于第一样本集中各样本的第二特征的特征值,将第一样本集分成多个第二分箱,并将第一样本集中每一个样本所在第二分箱的标识包括在所述第一交换信息中;
在得到所述第一加密集合之后,扰乱第二样本集中各样本的相对顺序,得到第四交换信息;
向所述第二设备发送所述第四交换信息,以便所述第二设备基于所述第四交换信息中的第二次加密ID和第二加密集合中的第二次加密ID确定共有样本,并基于共有样本中各样本的标签、所在第二分箱的标识,确定所述第二特征的信息价值,其中第二加密集合是使用所述第二密钥对所述第一交换信息中的第一次加密ID进行二次加密得到的。


3.根据权利要求2所述的方法,其中,所述基于第一样本集中各样本的第二特征的特征值,将第一样本集分成多个第二分箱包括:
根据等频分箱、等距分箱、卡方分箱中任一项,将第一样本集分成所述多个第二分箱。


4.根据权利要求1所述的方法,其中,第一样本集中各样本的初始ID和第二样本集中各样本的初始ID均为正整数;在使用第一密钥对第一样本集中各样本的初始ID进行加密之前,所述方法还包括:
确定大于第一样本集中各样本的初始ID中最大初始ID,且大于第二样本集中各样本的初始ID中最大初始ID的第一质数;
确定与第一质数互质的第一正整数为所述第一密钥。


5.根据权利要求4所述的方法,其中,所述使用第一密钥对第一样本集中各样本的初始ID进行加密,得到第一样本集中各样本的第一次加密ID包括:
对于第一样本集中每一个样本,确定该样本初始ID和所述第一密钥的乘积除以所述第一质数的余数为该样本的第一次加密ID。


6.根据权利要求1所述的方法,其中,第一样本集包括标签为正的多个样本和标签为负的多个样本;所述基于共有样本中各样本的标签、所在第一分箱的标识,确定所述第一特征的信息价值包括:
确定共有样本中落入具有第一标识的第一分箱中且标签为正的样本个数,相对于共有样本中标签为正的样本总个数的第一比例;
确定共有样本中落入所述具有第一标识的第一分箱中且标签为负的样本个数,相对于共有样本中标签为负的样本总个数的第二比例;
基于各个标识的第一分箱分别对应的所述第一比例,和所述第二比例,确定共有样本的第一特征的信息价值。


7.根据权利要求1所述的方法,其中,所述第一样本集中的样本包括用户样本,所述机器学习模型为用户分类模型;或者,
所述第一样本集中的样本包括业务样本,所述机器学习模型为业务处理模型。


8.一种保护隐私安全的多方联合进行特征评估的方法,所述多方至少包括第一设备和第二设备,所述第一设备存储有第一样本集和其中各样本的标签,所述第二设备存储有第二样本集,所述方法应用于第二设备;所述方法包括:
从第一设备接收第一交换信息,其中至少包括,由所述第一设备使用第一密钥对第一样本集中每个样本的初始ID进行加密后得到的第一次加密ID和对应的标签;
使用第二密钥,对所述第一交换信息中各样本的第一次加密ID进行二次加密,得到第二加密集合,然后扰乱所述第二加密集合中各样本的相对顺序;
向所述第一设备发送第二交换信息,所述第二交换信息包括已扰乱相对顺序的第一样本集中各样本的第二次加密ID和标签;
使用第二密钥对第二样本集中各个样本的初始ID进行加密,得到第二样本集中第一次加密ID;
基于第二样本集中各样本的第一特征的特征值,将第二样本集分成多个第一分箱;
向所述第一设备发送第三交换信息,所述第三交换信息包括第二样本集中各样本的第一次加密ID和所在第一分箱的标识,以便所述第一设备使用第一密钥对第三交换信息中的第一次加密ID进行二次加密,得到第一加密集合,并基于第一加密集合中的第二次加密ID和所述第二交换信息中的第二次加密ID,确定第一样本集和第二样本集的共有样本,以及基于共有样本中各样本的标签、所在第一分箱的标识,确定所述第一特征的信息价值,用于针对机器学习模型进行特征选择。


9.根据权利要求8所述的方法,其中,所述第一交换信息还包括第一样本集中每一个样本所在第二分箱的标识,所述第二分箱的标识由所述第一设备基于第一样本集中各样本的第二特征的特征值进行分箱得到;
所述方法还包括:
从所述第一设备接收第四交换信息,所述第四交换信息包括第二样本集中各样本的第二次加密ID,且所述第四交换信息中各样本的相对顺序已由所述第一设备扰乱;
基于所述第二加密集合的第二次加密ID和所述第四交换信息中的第二次加密ID,确定第一样本集和第二样本集的共有样本;
基于共有样本中各样本的标签、所在第二分箱的标识,确定所述第二特征的信息价值,用于针对机器学习模型进行特征选择。


10.一种保护隐私安全的多方联合进行特征评估的装置,所述多方至少包括第一设备和第二设备,第一设备存储有第一样本集和其中各样本的标签,第二设备存储有第二样本集,所述装置配置于第一设备;所述装置包括:
第一加密单元,用于使用第一密钥对第一样本集中各样本的初始ID进行加密,得到...

【专利技术属性】
技术研发人员:陆梦倩汲小溪王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1