一种数据匿名化方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37302208 阅读：9 留言：0更新日期：2023-04-21 22:47

本申请提供一种数据匿名化方法、装置、电子设备及存储介质，本申请涉及机器学习、联邦学习和隐私保护的技术领域，用于改善联邦学习的过程中使用的模型训练数据容易泄露个人隐私的问题。该方法通过将秘密共享的密态样本数据进行密态等距分箱，并使用密态等距分箱的手段对秘密共享后的密态样本数据进行匿名化，以使数据被替换成证据权重向量，从而获得匿名化的密态匿名数据，以此来减小泄露个人隐私的风险。该数据匿名化方法主要用于联邦机器学习或者隐私集合求交等场景。者隐私集合求交等场景。者隐私集合求交等场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据匿名化方法、装置、电子设备及存储介质

[0001]本申请涉及机器学习、联邦学习和隐私保护的
，具体而言，涉及一种数据匿名化方法、装置、电子设备及存储介质。

技术介绍

[0002]联邦机器学习（Federated Machine Learning，FML），又被称为联邦学习（Federated Learning）、联合学习或者联盟学习，是一种机器学习框架，该机器学习框架能有效地让多个机构在满足用户隐私保护、数据安全和法律法规的要求下，进行多方使用各自的数据协作训练出一个机器学习模型。
[0003]目前在联邦学习的过程中，虽然对原始数据进行了同态加密或安全多方计算（即秘密共享），并使用同态加密或秘密共享后的数据进行模型训练；然而，参与联邦学习的电子设备仍然可以从同态加密后的数据解密出原始数据，或者，当秘密共享后的碎片数据足够多时，就可以还原出原始数据。进一步地，电子设备还可以从原始数据中分析出个人隐私数据，因此，目前的联邦学习的过程中使用的模型训练数据容易泄露个人隐私。

技术实现思路

[0004]本申请实施例的目的在于提供一种数据匿名化方法、装置、电子设备及存储介质，用于改善联邦学习的过程中使用的模型训练数据容易泄露个人隐私的问题。
[0005]本申请实施例提供了一种数据匿名化方法，包括：将待处理的明文样本数据进行秘密共享，获得密态样本数据；将密态样本数据进行密态等距分箱，获得多个分箱范围；根据密态样本数据落入到多个分箱范围中的每个分箱范围的布尔状态，确定密态样本数据对应的密...

【技术保护点】

【技术特征摘要】
1.一种数据匿名化方法，其特征在于，包括：将待处理的明文样本数据进行秘密共享，获得密态样本数据；将所述密态样本数据进行密态等距分箱，获得多个分箱范围；根据所述密态样本数据落入到所述多个分箱范围中的每个分箱范围的布尔状态，确定所述密态样本数据对应的密态独热矩阵；根据所述密态独热矩阵确定所述明文样本数据对应的密态匿名数据。2.根据权利要求1所述的方法，其特征在于，所述将所述密态样本数据进行密态等距分箱，包括：统计出所述密态样本数据中的交集最大值和交集最小值，并根据所述交集最大值和所述交集最小值确定所述密态样本数据的样本区间；根据预设分箱数量对所述密态样本数据的样本区间进行密态等距分箱。3.根据权利要求1所述的方法，其特征在于，所述根据所述密态样本数据落入到所述多个分箱范围中的每个分箱范围的布尔状态，确定所述密态样本数据对应的密态独热矩阵，包括：对所述密态样本数据落入到所述多个分箱范围中的布尔状态，获得所述密态样本数据对应的布尔矩阵；将所述布尔矩阵转换为所述密态独热矩阵。4.根据权利要求1所述的方法，其特征在于，所述根据所述密态独热矩阵确定所述明文样本数据对应的密态匿名数据，包括：计算出所述多个分箱范围中的每个分箱范围的证据权重，获得证据权重向量；根据所述密态独热矩阵和所述证据权重向量，确定所述明文样本数据对应的密态匿名数据。5.根据权利要求1所述的方法，其特征在于，在所述根据所述密态独热矩阵确定所述明文样本数据对应的密态匿名数据之后，还包括：使用所述密态匿名数据对机器学习模型进行...

【专利技术属性】
技术研发人员：赵东，卞阳，尤志强，
申请(专利权)人：北京富算科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人