基于数据去标识过程的可允许配置的检测的数据去标识制造技术

技术编号:24896334 阅读:36 留言:0更新日期:2020-07-14 18:21
一种用于对数据去标识的系统确定标识数据集的实体的一个或多个标识符。一个或多个数据去标识过程被标识并与所确定的一个或多个标识符相关联。每个数据去标识过程与指示用于保存在数据集中的信息的一个或多个配置选项集合相关联。根据相关联的配置选项集合在数据集上执行所标识的数据去标识过程,以生成具有变化的保留信息的数据集。评估所生成的数据集的隐私弱点,并基于该评估来选择数据去标识过程和相关联的配置选项集合。根据相关联的配置选项集合,在数据集上执行所选择的数据去标识过程,以产生作为结果的去标识的数据集。实施例包括用于以基本上与上述相同的方式对数据进行去标识的方法和计算机程序产品。

【技术实现步骤摘要】
【国外来华专利技术】基于数据去标识过程的可允许配置的检测的数据去标识
本专利技术的实施例涉及数据访问,并且更具体地,涉及基于对数据去标识过程的可允许配置的检测来去标识数据,该数据去标识过程产生被去标识的数据集,同时维护隐私和数据效用。
技术介绍
隐私保护数据发布过程由多个步骤组成,这些步骤包括:发现直接标识符;直接标识符的掩蔽;准标识符(QID)的发现;通过数据匿名化技术来保护准标识符;以及数据发布和报告。直接标识符是可以单独用于直接和唯一地标识实体的属性,而准标识符是可以共同用于唯一标识实体的属性组。以上过程中的不同步骤的协调控制是否呈现充分匿名化的数据集。通过数据掩码操作来执行对数据集中的直接标识符的保护。这些操作将原始数据值变换成可能不再用于识别对应实体的新的、虚构的数据值,同时它们还可以被专门地编制以保存原始数据值的某些信息,因此允许在数据集中维持数据实用程序的级别。例如:可以用虚构名称掩蔽或替换个体名称,该虚构名称保持与个体的性别信息的一致性;电子邮件(email)地址可被掩蔽或用维护原始email地址的域名信息的另一email地址替换;信用卡号本文档来自技高网...

【技术保护点】
1.一种去标识数据的方法,包括:/n确定标识数据集的实体的一个或多个标识符;/n标识与所确定的一个或多个标识符相关联的一个或多个数据去标识过程,其中,每个数据去标识过程与指示用于在所述数据集中保留的信息的配置选项的一个或多个集合相关联;/n经由处理器,根据所述相关联的配置选项集合来对所述数据集执行所标识的数据去标识过程,以生成具有变化的保留信息的数据集;/n经由处理器评估所生成的数据集的隐私弱点,并且基于所述评估来选择数据去标识过程和相关联的配置选项集合;并且/n经由处理器,根据所述相关联的配置选项集合对所述数据集执行所述选择的数据去标识过程,以产生作为结果的去标识的数据集。/n

【技术特征摘要】
【国外来华专利技术】20171215 US 15/843,0491.一种去标识数据的方法,包括:
确定标识数据集的实体的一个或多个标识符;
标识与所确定的一个或多个标识符相关联的一个或多个数据去标识过程,其中,每个数据去标识过程与指示用于在所述数据集中保留的信息的配置选项的一个或多个集合相关联;
经由处理器,根据所述相关联的配置选项集合来对所述数据集执行所标识的数据去标识过程,以生成具有变化的保留信息的数据集;
经由处理器评估所生成的数据集的隐私弱点,并且基于所述评估来选择数据去标识过程和相关联的配置选项集合;并且
经由处理器,根据所述相关联的配置选项集合对所述数据集执行所述选择的数据去标识过程,以产生作为结果的去标识的数据集。


2.如权利要求1所述的方法,其中,确定所述一个或多个标识符进一步包括:
确定一个或多个直接标识符,其中相关联的数据去标识过程包括数据掩码过程。


3.根据权利要求1所述的方法,其中,确定所述一个或多个标识符进一步包括:
确定多个准标识符,其中,所述相关联的数据去标识处理包括数据泛化或数据抑制。


4.根据权利要求1所述的方法,其中,所生成的数据集以表格的形式,并且执行所识别的数据去识别处理进一步包括:
合并所生成的数据集的两个或更多个列以产生具有比所述两个或更多个列更特定的信息的列。


5.如权利要求1所述的方法,其特征在于,评估所生成的数据集的隐私弱点进一步包括:
确定所生成的数据集中的实体的数据与公共可用数据集中的已知实体的数据之间的链接的存在,以指示所生成的数据集的隐私弱点。


6.如权利要求1所述的方法,其特征在于,评估所生成的数据集的隐私弱点进一步包括:
确定在由对应的数据去标识过程引入的所生成的数据集中的准标识符集合以及用于指示所生成的数据集的隐私弱点的相关联的配置选项集合的存在。


7.根据权利要求1所述的方法,进一步包括:
针对每个数据去标识过程生成一系列模板,其中,每个模板指定针对该数据去标识过程的相关联的一组配置选项。


8.根据权利要求1所述的方法,进一步包括:
通过标识缺少隐私弱点的所生成的数据集并终止相对于生成具有比所标识的所生成的数据集更一般化的信息的数据集的对应数据去标识过程的其他相关联的配置选项集合的处理,来减少用于所述去标识的处理时间。


9.一种用于对数据进行去标识的系统,包括:
至少一个处理器,被配置为:
确定标识数据集的实体的一个或多个标识符;
标识与所确定的一个或多个标识符相关联的一个或多个数据去标识过程,其中,每个数据去标识过程与指示用于在所述数据集中保留的信息的配置选项的一个或多个集合相关联;
根据所述相关联的配置选项集合来对所述数据集执行所标识的数据去标识过程,以生成具有变化的保留信息的数据集;
评估所生成的数据集的隐私弱点,并且基于该评估来选择数据去标识过程和相关联的配置选项集合;并且
根据所述相关联的配置选项集合对所述数据集执行所述选择的数据去标识过程,以产生作为结果的去标识的数据集。


10.如权利要求9所述的系统,其中,确定所述一个或多个标识符进一步包括:
确定一个或多个直接标识符,其中相关联的数据去标识过程包括数据掩码过程。


11.如权利要求9所述的系统,其中,确定所述一个或多个标识符进一步包括:
确定多个准标识符,其中,所述相关联的数据去标识处理包括数据泛化或数据抑制。


12.根据权利要求9所述的系统,其中,所生成的数据集以表格的形式,并且执行所识别的数据去识别处理进一步包括:
合并所生成的数据集的两个或更多个列以产生具有比所述两个或更多个列更特定的信息的列。
...

【专利技术属性】
技术研发人员:A·格库拉拉斯迪瓦尼斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1