一种数据匿名化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37302208 阅读:9 留言:0更新日期:2023-04-21 22:47
本申请提供一种数据匿名化方法、装置、电子设备及存储介质,本申请涉及机器学习、联邦学习和隐私保护的技术领域,用于改善联邦学习的过程中使用的模型训练数据容易泄露个人隐私的问题。该方法通过将秘密共享的密态样本数据进行密态等距分箱,并使用密态等距分箱的手段对秘密共享后的密态样本数据进行匿名化,以使数据被替换成证据权重向量,从而获得匿名化的密态匿名数据,以此来减小泄露个人隐私的风险。该数据匿名化方法主要用于联邦机器学习或者隐私集合求交等场景。者隐私集合求交等场景。者隐私集合求交等场景。

【技术实现步骤摘要】
一种数据匿名化方法、装置、电子设备及存储介质


[0001]本申请涉及机器学习、联邦学习和隐私保护的
,具体而言,涉及一种数据匿名化方法、装置、电子设备及存储介质。

技术介绍

[0002]联邦机器学习(Federated Machine Learning,FML),又被称为联邦学习(Federated Learning)、联合学习或者联盟学习,是一种机器学习框架,该机器学习框架能有效地让多个机构在满足用户隐私保护、数据安全和法律法规的要求下,进行多方使用各自的数据协作训练出一个机器学习模型。
[0003]目前在联邦学习的过程中,虽然对原始数据进行了同态加密或安全多方计算(即秘密共享),并使用同态加密或秘密共享后的数据进行模型训练;然而,参与联邦学习的电子设备仍然可以从同态加密后的数据解密出原始数据,或者,当秘密共享后的碎片数据足够多时,就可以还原出原始数据。进一步地,电子设备还可以从原始数据中分析出个人隐私数据,因此,目前的联邦学习的过程中使用的模型训练数据容易泄露个人隐私。

技术实现思路

[0004]本申请实施例的目的在于提供一种数据匿名化方法、装置、电子设备及存储介质,用于改善联邦学习的过程中使用的模型训练数据容易泄露个人隐私的问题。
[0005]本申请实施例提供了一种数据匿名化方法,包括:将待处理的明文样本数据进行秘密共享,获得密态样本数据;将密态样本数据进行密态等距分箱,获得多个分箱范围;根据密态样本数据落入到多个分箱范围中的每个分箱范围的布尔状态,确定密态样本数据对应的密态独热矩阵;根据密态独热矩阵确定明文样本数据对应的密态匿名数据。在上述方案的实现过程中,通过将明文样本数据秘密共享获得的密态样本数据进行密态等距分箱,并根据分箱后的密态独热矩阵来确定该明文样本数据对应的密态匿名数据,也就是说,通过使用密态等距分箱的手段对秘密共享后的密态样本数据进行匿名化,以使得数据被替换成证据权重向量,从而获得匿名化的密态匿名数据,因此使用密态匿名数据可以有效减小泄露个人隐私的风险。
[0006]可选地,在本申请实施例中,将密态样本数据进行密态等距分箱,包括:统计出密态样本数据中的交集最大值和交集最小值,并根据交集最大值和交集最小值确定密态样本数据的样本区间;根据预设分箱数量对密态样本数据的样本区间进行密态等距分箱。在上述方案的实现过程中,通过根据预设分箱数量对密态样本数据的样本区间进行密态等距分箱,并根据分箱后的密态独热矩阵来确定该明文样本数据对应的密态匿名数据,也就是说,通过使用密态等距分箱的手段对秘密共享后的密态样本数据进行匿名化,以使得数据被替换成证据权重向量,从而获得匿名化的密态匿名数据,因此使用密态匿名数据可以有效减小泄露个人隐私的风险。
[0007]可选地,在本申请实施例中,根据密态样本数据落入到多个分箱范围中的每个分
箱范围的布尔状态,确定密态样本数据对应的密态独热矩阵,包括:对密态样本数据落入到多个分箱范围中的布尔状态,获得密态样本数据对应的布尔矩阵;将布尔矩阵转换为密态独热矩阵。在上述方案的实现过程中,通过对密态样本数据落入到多个分箱范围中的布尔状态,获得密态样本数据对应的布尔矩阵,并将布尔矩阵转换为密态独热矩阵,该密态独热矩阵用于确定该明文样本数据对应的密态匿名数据,也就是说,通过使用密态等距分箱的手段对秘密共享后的密态样本数据进行匿名化,以使得数据被替换成证据权重向量,从而获得匿名化的密态匿名数据,因此使用密态匿名数据可以有效减小泄露个人隐私的风险。
[0008]可选地,在本申请实施例中,根据密态独热矩阵确定明文样本数据对应的密态匿名数据,包括:计算出多个分箱范围中的每个分箱范围的证据权重,获得证据权重向量;根据密态独热矩阵和证据权重向量,确定明文样本数据对应的密态匿名数据。在上述方案的实现过程中,通过WOE算法计算出多个分箱范围中的每个分箱范围的证据权重,获得证据权重向量,并根据密态独热矩阵和证据权重向量,从而通过WOE算法可以安全有效的保护这些信息不被泄漏。
[0009]可选地,在本申请实施例中,在根据密态独热矩阵确定明文样本数据对应的密态匿名数据之后,还包括:使用密态匿名数据对机器学习模型进行联邦学习。在上述方案的实现过程中,通过使用密态匿名数据对机器学习模型进行联邦学习,从而在不暴露敏感信息的情况下,同时又满足客户数据流通赋能的需求,有效地增加了联邦学习过程中的数据安全性。
[0010]可选地,在本申请实施例中,使用密态匿名数据对机器学习模型进行联邦学习,包括:将待处理的样本标签进行秘密共享,获得密态标签数据,样本标签是样本数据的类别标签;使用密态匿名数据和密态标签数据对机器学习模型进行联邦学习。在上述方案的实现过程中,通过使用密态匿名数据和密态标签数据对机器学习模型进行联邦学习,从而在不暴露敏感信息的情况下,同时又满足客户数据流通赋能的需求,有效地增加了联邦学习过程中的数据安全性。
[0011]可选地,在本申请实施例中,在根据密态独热矩阵确定明文样本数据对应的密态匿名数据之后,还包括:使用秘密共享密码机制中的门限方案对密态匿名数据进行恢复,获得明文匿名数据;使用明文匿名数据对机器学习模型进行联邦学习。在上述方案的实现过程中,通过使用秘密共享密码机制中的门限方案对密态匿名数据进行恢复,获得明文匿名数据,并使用明文匿名数据对机器学习模型进行联邦学习,从而在不暴露敏感信息的情况下,同时又满足客户数据流通赋能的需求,有效地增加了联邦学习过程中的数据安全性。
[0012]本申请实施例还提供了一种数据匿名化装置,包括:样本数据获得模块,用于将待处理的明文样本数据进行秘密共享,获得密态样本数据;分箱范围获得模块,用于将密态样本数据进行密态等距分箱,获得多个分箱范围;独热矩阵确定模块,用于根据密态样本数据落入到多个分箱范围中的每个分箱范围的布尔状态,确定密态样本数据对应的密态独热矩阵;匿名数据确定模块,用于根据密态独热矩阵确定明文样本数据对应的密态匿名数据。
[0013]可选地,在本申请实施例中,分箱范围获得模块,包括:样本区间确定子模块,用于统计出密态样本数据中的交集最大值和交集最小值,并根据交集最大值和交集最小值确定密态样本数据的样本区间;样本区间分箱子模块,用于根据预设分箱数量对密态样本数据的样本区间进行密态等距分箱。
[0014]可选地,在本申请实施例中,独热矩阵确定模块,包括:布尔矩阵获得子模块,用于对密态样本数据落入到多个分箱范围中的布尔状态,获得密态样本数据对应的布尔矩阵;布尔矩阵转换子模块,用于将布尔矩阵转换为密态独热矩阵。
[0015]可选地,在本申请实施例中,匿名数据确定模块,包括:权重向量获得子模块,用于计算出多个分箱范围中的每个分箱范围的证据权重,获得证据权重向量;密态数据确定子模块,用于根据密态独热矩阵和证据权重向量,确定明文样本数据对应的密态匿名数据。
[0016]可选地,在本申请实施例中,数据匿名化装置,还包括:第一联邦学习模块,用于使用密态匿名数据对机器学习模型进行联邦学习。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据匿名化方法,其特征在于,包括:将待处理的明文样本数据进行秘密共享,获得密态样本数据;将所述密态样本数据进行密态等距分箱,获得多个分箱范围;根据所述密态样本数据落入到所述多个分箱范围中的每个分箱范围的布尔状态,确定所述密态样本数据对应的密态独热矩阵;根据所述密态独热矩阵确定所述明文样本数据对应的密态匿名数据。2.根据权利要求1所述的方法,其特征在于,所述将所述密态样本数据进行密态等距分箱,包括:统计出所述密态样本数据中的交集最大值和交集最小值,并根据所述交集最大值和所述交集最小值确定所述密态样本数据的样本区间;根据预设分箱数量对所述密态样本数据的样本区间进行密态等距分箱。3.根据权利要求1所述的方法,其特征在于,所述根据所述密态样本数据落入到所述多个分箱范围中的每个分箱范围的布尔状态,确定所述密态样本数据对应的密态独热矩阵,包括:对所述密态样本数据落入到所述多个分箱范围中的布尔状态,获得所述密态样本数据对应的布尔矩阵;将所述布尔矩阵转换为所述密态独热矩阵。4.根据权利要求1所述的方法,其特征在于,所述根据所述密态独热矩阵确定所述明文样本数据对应的密态匿名数据,包括:计算出所述多个分箱范围中的每个分箱范围的证据权重,获得证据权重向量;根据所述密态独热矩阵和所述证据权重向量,确定所述明文样本数据对应的密态匿名数据。5.根据权利要求1所述的方法,其特征在于,在所述根据所述密态独热矩阵确定所述明文样本数据对应的密态匿名数据之后,还包括:使用所述密态匿名数据对机器学习模型进行...

【专利技术属性】
技术研发人员:赵东卞阳尤志强
申请(专利权)人:北京富算科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1