数据脱敏方法、联邦学习方法及系统技术方案

技术编号:32320738 阅读:15 留言:0更新日期:2022-02-16 18:26
本发明专利技术提供了数据脱敏方法及装置、联邦学习方法及系统,该数据脱敏方法包括:将数据库中的多个样本导入数据脱敏环境,所述样本包括样本标识及其样本特征;在所述数据脱敏环境中,利用数据脱敏算法对每个所述样本的所述样本标识进行加密,并对导入所述数据脱敏环境的多个所述样本进行混淆处理,以实现所述样本的去标识化,其中,去标识化后的样本标识及其对应的样本特征仍具有映射关系,保留样本数据分析所需的有效信息。利用上述方法,能够将样本标识的隐私数据匿名化,并且也无法将去标识化后的样本对应到原始样本,实现了较好的脱敏效果。基于数据脱敏方法的联邦学习方法使用去标识化后的样本数据进行联邦学习,保证了联邦学习时的个人信息隐私化。习时的个人信息隐私化。习时的个人信息隐私化。

【技术实现步骤摘要】
数据脱敏方法、联邦学习方法及系统


[0001]本专利技术属于数据处理领域,具体涉及一种数据脱敏方法及装置、联邦学习方法及系统。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着隐私保护相关法律的发布,越来越多的机构在数据合作应用中对自身隐私数据的保护要求有所加强。而数据作为生产要素之一,加强跨行业、跨领域、跨机构之间的共享与流动,才能更好的发挥其内在价值。而隐私计算技术正是解决数据安全合规共享应用的技术手段之一,目前正在受到业内的重点关注。
[0004]目前业界较多的利用隐私计算技术进行联合建模工作,其第一步即为双方的样本对齐(也称为样本求交、撞库等),并将对齐后的样本计算特征,进行联合建模工作。样本求交通常用的是样本的唯一值,如个人的身份证号、手机号、企业的营业执照号等敏感隐私数据。传统的隐私求交方法为合作双方不传输明文的ID字段,通过密码学的方法(盲签名或者不经意传输等)传输加密混淆过的信息,最终求出双方ID的交集。这种方法尽管能保证所有中间交互的数据加密混淆,并且双方无法得到对方非共有的ID,但计算的结果还是能够揭示出双方共有的ID,从一定程度上也会泄露用户隐私(比如当某用户在A平台注册,但在隐私求交后,A平台同时知道该用户在B平台也注册了)。另外,由于双方知道交集样本的ID,也就是说参与建模的样本能具体到指定个人,这在一定程度上也无法满足法律对于个人信息匿名化、不涉及个人隐私的要求。r/>
技术实现思路

[0005]针对上述现有技术中存在的问题,提出了一种数据脱敏方法及装置、联邦学习方法及系统,利用这种方法、装置及系统,能够解决上述问题。
[0006]本专利技术提供了以下方案。
[0007]第一方面,提供一种数据脱敏方法,包括:将数据库中的多个样本导入数据脱敏环境,所述样本包括样本标识及其样本特征;在所述数据脱敏环境中,利用数据脱敏算法对每个所述样本的所述样本标识进行加密,并对导入所述数据脱敏环境的多个所述样本进行混淆处理,以实现所述样本的去标识化;其中,去标识化后的所述样本标识及其对应的所述样本特征仍具有映射关系。
[0008]在一种实施方式中,数据脱敏算法采用不可逆的加密算法。
[0009]在一种实施方式中,数据脱敏算法采用HMAC算法。
[0010]在一种实施方式中,利用数据脱敏算法对每个样本的样本标识进行加密,还包括:利用数据脱敏算法并使用不同的数据加密密钥按批次地对导入数据脱敏环境的多个样本进行加密;其中,每一批次包括一个或多个样本,且不同批次的样本对应于不同的数据加密
密钥。
[0011]在一种实施方式中,数据脱敏环境由具备TEE功能的服务器实现。
[0012]在一种实施方式中,数据脱敏环境由硬件加密机实现。
[0013]在一种实施方式中,数据加密密钥在硬件加密机中生成并保存。
[0014]在一种实施方式中,还包括:将去标识化后的样本导入联邦学习平台进行安全求交运算和/或联合建模。
[0015]第二方面,提供一种基于数据脱敏方法的联邦学习方法,包括:多个合作方在自身环境中各自部署相同的数据脱敏环境;多个合作方共同协商统一的数据脱敏算法,并在数据脱敏环境中生成及部署数据脱敏算法;多个合作方将各自数据库中的多个样本导入各自部署的数据脱敏环境中,每个样本包括样本标识及其样本特征;多个合作方在各自部署的数据脱敏环境中同步数据加密密钥,利用数据脱敏算法并使用数据加密密钥对各自数据库的多个样本进行去标识化处理;多个合作方分别将去标识化后的样本导入联邦学习平台,以进行安全求交运算和/或联合建模。
[0016]在一种实施方式中,数据脱敏环境由具备TEE功能的服务器实现。
[0017]在一种实施方式中,多个合作方共同协商统一的数据脱敏算法,还包括:多个合作方通过TEE远程认证功能验证其他合作方的运算环境安全性,并在验证通过后创建TEE安全信道;基于创建的TEE安全信道,利用TEE测量功能互相验证其他合作方部署的数据脱敏算法是否符合约定。
[0018]在一种实施方式中,多个合作方在各自部署的数据脱敏环境中同步数据加密密钥,还包括:多个合作方通过TEE安全信道协商传输数据加密密钥。
[0019]在一种实施方式中,数据脱敏环境由硬件加密机实现。
[0020]在一种实施方式中,多个合作方在各自部署的数据脱敏环境中同步数据加密密钥,还包括:多个合作方中的任意一个合作方生成主密钥,并通过加密指令将主密钥同步至多个合作方中的其他合作方;多个合作方中的任意一个合作方生成数据加密密钥,并通过主密钥对数据加密密钥进行加密,并将加密后的数据加密密钥同步给多个合作方中的其他合作方;其他合作方基于主密钥对加密后的数据加密密钥进行解密,得到数据加密密钥;多个合作方基于数据加密密钥协商统一的数据脱敏算法。
[0021]在一种实施方式中,多个合作方在各自部署的数据脱敏环境中利用数据脱敏算法对各自数据库的多个样本进行去标识化处理包括:在每个合作方部署的数据脱敏环境中,利用数据脱敏算法并使用数据加密密钥对导入的多个样本的样本标识进行加密,并对导入数据脱敏环境的多个样本进行混淆处理,以实现样本的去标识化;其中,去标识化后的样本标识及其对应的样本特征仍具有映射关系。
[0022]在一种实施方式中,数据脱敏算法采用不可逆的加密算法。
[0023]在一种实施方式中,数据脱敏算法采用HMAC算法。
[0024]在一种实施方式中,利用数据脱敏算法并使用数据加密密钥对导入的多个样本的样本标识进行加密,还包括:利用数据脱敏算法并使用不同的数据加密密钥按批次地对导入数据脱敏环境的多个样本进行加密;其中,每一批次包括一个或多个样本,且不同批次的样本对应于不同的数据加密密钥。
[0025]在一种实施方式中,数据加密密钥在硬件加密机中生成并保存。
[0026]第三方面,提供一种数据脱敏装置,包括:数据导入模块,用于将数据库中的多个样本导入数据脱敏环境,样本包括样本标识及其样本特征;脱敏算法生成及部署模块,用于在数据脱敏环境中生成及部署数据脱敏算法;去标识化模块,用于在数据脱敏环境中,利用数据脱敏算法对每个样本的样本标识进行加密,并对导入数据脱敏环境的多个样本进行混淆处理,以实现样本的去标识化;其中,去标识化后的样本标识及其对应的样本特征仍具有映射关系。
[0027]在一种实施方式中,数据脱敏算法采用不可逆的加密算法。
[0028]在一种实施方式中,数据脱敏算法采用HMAC算法。
[0029]在一种实施方式中,去标识化模块还用于:利用数据脱敏算法并使用不同的数据加密密钥按批次地对导入数据脱敏环境的多个样本进行加密;其中,每一批次包括一个或多个样本,且不同批次的样本对应于不同的数据加密密钥。
[0030]在一种实施方式中,数据脱敏环境由具备TEE功能的服务器实现。
[0031]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.数据脱敏方法,其特征在于,包括:将数据库中的多个样本导入数据脱敏环境,所述样本包括样本标识及其样本特征;在所述数据脱敏环境中,利用数据脱敏算法对每个所述样本的所述样本标识进行加密,并对导入所述数据脱敏环境的多个所述样本进行混淆处理,以实现所述样本的去标识化;其中,去标识化后的所述样本标识及其对应的所述样本特征仍具有映射关系。2.根据权利要求1所述的方法,其特征在于,所述数据脱敏算法采用不可逆的加密算法。3.根据权利要求1所述的方法,其特征在于,所述数据脱敏算法采用HMAC算法。4.根据权利要求1所述的方法,其特征在于,利用数据脱敏算法对每个所述样本的所述样本标识进行加密,还包括:利用所述数据脱敏算法并使用不同的数据加密密钥按批次地对导入所述数据脱敏环境的多个所述样本进行加密;其中,每一批次包括一个或多个所述样本,且不同批次的所述样本对应于不同的所述数据加密密钥。5.根据权利要求1所述的方法,其特征在于,所述数据脱敏环境由具备TEE功能的服务器实现。6.根据权利要求1所述的方法,其特征在于,所述数据脱敏环境由硬件加密机实现。7.根据权利要求6所述的方法,其特征在于,所述数据加密密钥在所述硬件加密机中生成并保存。8.根据权利要求1所述的方法,其特征在于,还包括:将去标识化后的所述样本导入联邦学习平台进行安全求交运算和/或联合建模。9.基于数据脱敏方法的联邦学习方法,其特征在于,包括:多个合作方在自身环境中各自部署相同的数据脱敏环境;所述多个合作方共同协商统一的数据脱敏算法,并在所述数据脱敏环境中生成及部署所述数据脱敏算法;所述多个合作方将各自数据库中的多个样本导入各自部署的所述数据脱敏环境中,每个样本包括样本标识及其样本特征;生成及部署所述多个合作方在各自部署的所述数据脱敏环境中同步数据加密密钥,利用所述数据脱敏算法并使用所述数据加密密钥对各自数据库的多个样本进行去标识化处理;所述多个合作方分别将去标识化后的所述样本导入联邦学习平台,以进行安全求交运算和/或联合建模。10.根据权利要求8所述的方法,其特征在于,所述数据脱敏环境由具备TEE功能的服务器实现。11.根据权利要求10所述的方法,其特征在于,所述多个合作方共同协商统一的数据脱敏算法,还包括:所述多个合作方通过TEE远程认证功能验证其他合作方的运算环境安全性,并在验证通过后创建TEE安全信道;基于创建的所述TEE安全信道,利用TEE测量功能互相验证其他合作方部署的数据脱敏
算法是否符合约定。12.根据权利要求11所述的方法,其特征在于,所述多个合作方在各自部署的所述数据脱敏环境中同步数据加密密钥,还包括:所述多个合作方通过所述TEE安全信道协商传输数据加密密钥。13.根据权利要求9所述的方法,其特征在于,所述数据脱敏环境由硬件加密机实现。14.根据权利要求13所述的方法,其特征在于,所述多个合作方在各自部署的所述数据脱敏环境中同步数据加密密钥,还包括:所述多个合作方中的任意一个合作方生成主密钥,并通过加密指令将所述主密钥同步至所述多个合作方中的其他合作方;所述多个合作方中的任意一个合作方生成数据加密密钥,并通过所述主密钥对所述数据加密密钥进行加密,并将加密后的所述数据加密密钥同步给所述多个合作方中的其他合作方;所述其他合作方基于所述主密钥对加密后的所述数据加密密钥进行解密,得到所述数据加密密钥;所述多个合作方基于所述数据加密密钥协商统一的所述数据脱敏算法。15.根据权利要求9所述的方法,其特征在于,所述多个合作方在各自部署的所述数据脱敏环境中利用所述数据脱敏算法对各自数据库的多个样本进行去标识化处理包括:在每个所述合作方部署的所述数据脱敏环境中,利用所述数据脱敏算法并使用数据加密密钥对导入的多个所述样本的所述样本标识进行加密,并对导入所述数据脱敏环境的多个所述样本进行混淆处理,以实现所述样本的去标识化;其中,去标识化后的所述样本标识及其对应的所述样本特征仍具有映射关系。16.根据权利要求9所述的方法,其特征在于,所述数据脱敏算法采用不可逆的加密算法。17.根据权利要求9所述的方法,其特征在于,所述数据脱敏算法采用HMAC算法。18.根据权利要求15所述的方法,其特征在于,利用所述数据脱敏算法并使用数据加密密钥对导入的多个所述样本的所述样本标识进行加密,还包括:利用所述数据脱敏算法并使用不同的数据加密密钥按批次地对导入所述数据脱敏环境的多个所述样本进行加密;其中,每一批次包括一个或多个所述样本,且不同批次的所述样本对应于不同的所述数据加密密钥。19.根据权利要求13所述的方法,其特征在于,所述数据加密密钥在所述硬件加密机中生成并保存。20.数据脱敏装置,其特征在于,包括:数据导入模块,用于将数据库中的多个样本导入数据脱敏环境,所述样本包括样本标识及其样本特征;脱敏算法模块,用于在数据脱敏环境中生成及部署所述数据脱敏算法;去标识化模块,用于在所...

【专利技术属性】
技术研发人员:刘红宝杨燕明高鹏飞郑建宾欧阳琛周雍恺杨阳金灵程栋
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1