水平可扩展数据去识别制造技术

技术编号:35366918 阅读:24 留言:0更新日期:2022-10-29 18:07
本申请涉及水平可扩展数据去识别。描述了为数据集生成匿名化视图。一种示例方法可以包括从数据集中接收数据,其中数据被组织在多个列中。该方法还可以包括生成数据的多个泛化。该方法还可进一步包括使用基于至少泛化信息损失的信息损失评分函数来从多个泛化中选择泛化。另外,该方法还可以包括从所选择的泛化生成数据集的匿名化视图。生成数据集的匿名化视图。生成数据集的匿名化视图。

【技术实现步骤摘要】
水平可扩展数据去识别
[0001]相关申请
[0002]本申请要求于2021年4月26日提交的第63/180,047号美国临时申请的权益,该美国临时申请由此通过引用以其整体并入。


[0003]本公开涉及数据处理,且特别涉及数据的去识别(de

identify)。
[0004]背景
[0005]去识别或匿名化是指“一种过程,通过该过程个人数据被以某种方式不可逆转地更改,使得数据主体不再能够直接或间接地被数据控制者单独地或与任何其他方合作识别”。基于风险的匿名(或去识别)是基于在最大化数据效用的同时降低重识别(re

identification)的风险。重识别是匿名数据通过其与其真正所有者匹配的过程。例如,研究人员能够将一份容易购买的选民登记名单与“匿名”医院数据联系起来。医院数据只去除了患者的姓名,但他们的出生日期、性别和邮政编码仍在数据中。研究人员表明,这三个属性足以重新识别87%的美国人口。
[0006]一种匿名化数据的方法叫做k

匿名。k

...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:数据源;和一个或更多个处理器,其用于:从存储在所述数据源中的数据集接收数据,其中,所述数据被组织在多个列中;生成所述数据的多个泛化;使用基于至少泛化信息损失的信息损失评分函数从所述多个泛化中选择泛化;和根据所选择的泛化,生成所述数据集的匿名化视图。2.根据权利要求1所述的系统,其中,所述多个列中的每一列具有对应的隐私类别。3.根据权利要求2所述的系统,其中,所述隐私类别包括标识符类别。4.根据权利要求2所述的系统,其中,所述隐私类别包括准标识符类别。5.根据权利要求2所述的系统,其中,所述隐私类别包括敏感类别。6.根据权利要求1所述的系统,其中,所述多个泛化的生成基于关于所述多个列中的一个或更多个列的至少一组数据层次结构。7.根据权利要求6所述的系统,其中,数据层次结构是数据值的最终形成单个值的连续分组,所述数据层次结构的属性是所有值被连续分组相同次数。8.根据权利要求1所述的系统,其中,所述一个或更多个处理器通过将所述多个泛化分组为等价类的集合来选择所述泛化。9.根据权利要求8所述的系统,其中,所述一个或更多个处理器通过剪枝所述等价类的集合来选择所述泛化。10.根据权利要求9所述的系统,其中,所述剪枝基于多个泛化的单调性。11.根据权利要求1所述的系统,其中,所述一个或更多个处理器进一步通过抑制具有标识符隐私类别的列中的数据来构建所述匿名化视图。12.根据权利要求1所述的系统,其中,所述匿名化视图是关于特定k值的k

匿名的。13.根据权利要求1所述的系统,其中,所述一个或更多个处理器将所述数据集中的数据转换为整数数据。14.根据权利要求13所述的系统,其中,所述一个或更多个处理器通过将要转换的数据的原始值替换为所述数据的值的集合的索引来转换所述数据。15.根据权利要求13所述的系统,其中,要转换的所述数据是对应于具有准标识符隐私类别的列的数据。16.一种非暂时性机器可读介质,其存储指令,所述指令当由计算设备的一个或更多个处理器执行时使所述一个或更多个处理器:从数据集接收数据,其中,所述数据被组织在多个列中;生成所述数据的多个泛化;将所述多个泛化拆分为多个泛化子集;将所述多个泛化子集发送到...

【专利技术属性】
技术研发人员:大卫
申请(专利权)人:斯诺弗雷克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1