用于数据的关系型上下文敏感匿名化的方法和系统技术方案

技术编号:11031860 阅读:115 留言:0更新日期:2015-02-11 17:51
描述了用于数据的关系型上下文敏感匿名化的方法和系统。更具体而言,提供了用于数据的关系型上下文敏感匿名化的机制。接收对数据的请求,该请求指定与所选人的所选群组相对应的关系型上下文,所选人的所选群组是基于关系型上下文从人的全局群组中选择的。关系型上下文指定所选群组中的所选人的一个或多个属性,这一个或多个属性确立所选人之间的关系并且将所选人与全局群组中的不在所选群组中的非所选人相区分。对于关系型上下文,基于与所选人相对应的个人信息数据的语料库,确定个人信息数据中的关键属性,并且确定每个关键属性的罕见性值。然后基于所确定的每个关键属性在所选群组的关系型上下文内的罕见性值来匿名化所选关键属性。

【技术实现步骤摘要】
【专利摘要】描述了用于数据的关系型上下文敏感匿名化的方法和系统。更具体而言,提供了用于数据的关系型上下文敏感匿名化的机制。接收对数据的请求,该请求指定与所选人的所选群组相对应的关系型上下文,所选人的所选群组是基于关系型上下文从人的全局群组中选择的。关系型上下文指定所选群组中的所选人的一个或多个属性,这一个或多个属性确立所选人之间的关系并且将所选人与全局群组中的不在所选群组中的非所选人相区分。对于关系型上下文,基于与所选人相对应的个人信息数据的语料库,确定个人信息数据中的关键属性,并且确定每个关键属性的罕见性值。然后基于所确定的每个关键属性在所选群组的关系型上下文内的罕见性值来匿名化所选关键属性。【专利说明】用于数据的关系型上下文敏感匿名化的方法和系统
本申请概括而言涉及改进的数据处理装置和方法,更具体而言涉及用于基于个体 群组上的关系型上下文(relational context)识别并匿名化敏感识别信息的机制。
技术介绍
数据的匿名化(anonymi z at i on )是当今的利用计算机化机制可相对容易的规避个 体隐私的面向计算机的社会中的一个重要考虑因素。也就是说,通过网站、数据库、目录等 等,个体的个人信息被收集并供合法使用,但也可被利用于非法用途。随着身份盗窃和对个 人信息的其他非法访问变得更猖獗,个体隐私正变成更重要的问题。另外,政府规章要求保 持诸如医疗历史信息之类的某些类型的关于个体的数据的安全。 已知的匿名化系统和技术本质上利用模式匹配或关键字搜索来识别标准化信息 来加以模糊或消除以使其不能够作为查询的结果返回。在更结构化的系统中,一类字段基 础可用于识别包含个人可识别信息的字段。一般地,这些系统识别数据中的字段,例如姓 名、地址、邮编等等一这些字段被确定为可用于个体地识别特定的人的字段,并且程序化 地模糊或消除这些字段以使其不能作为查询的结果返回。 匿名化系统和技术的示例可在属于本申请的 申请人:的以下美国专利申请公布中 找到:2009/0303237 ;2011/0113049 ;2011/0277037 ;和 2012/0303616。
技术实现思路
在一个示意性实施例中,提供了一种包括处理器和存储器的数据处理系统中的用 于数据的关系型上下文敏感匿名化的方法。该方法包括由数据处理系统接收对数据的请 求。该请求指定与所选人的所选群组相对应的关系型上下文,所选人的所选群组是基于关 系型上下文从人的全局群组中选择的。关系型上下文指定所选群组中的所选人的一个或多 个属性,这一个或多个属性确立所选人之间的关系并且将所选人与全局群组中的不在所选 群组中的非所选人相区分。该方法还包括由数据处理系统对于与所选群组相对应的关系型 上下文,基于与所选群组中的所选人相对应的个人信息数据的语料库(corpus),确定个人 信息数据中的一个或多个关键属性。另外,该方法包括由数据处理系统确定一个或多个关 键属性中的每个关键属性在所选群组的关系型上下文内的罕见性值(rarity value)。此 夕卜,该方法包括由数据处理系统基于所确定的每个关键属性在所选群组的关系型上下文内 的罕见性值来匿名化一个或多个关键属性中的所选关键属性。 在其他示意性实施例中,提供了 一种计算机程序产品,其包括具有计算机可读程 序的计算机可使用或可读介质。计算机可读程序当在计算设备上被执行时使得计算设备执 行以上关于方法示意性实施例概述的操作中的各种操作及其组合。 在另一示意性实施例中,提供了一种系统/装置。该系统/装置可包括一个或多 个处理器和与这一个或多个处理器相耦合的存储器。该存储器可包括指令,这些指令当被 该一个或多个处理器执行时使得该一个或多个处理器执行以上关于方法示意性实施例概 述的操作中的各种操作及其组合。 在以下对本专利技术的示例实施例的详细描述中将描述本专利技术的这些和其他特征和 优点,或者本领域普通技术人员可基于这些详细描述而清楚本专利技术的这些和其他特征和优 点。 【专利附图】【附图说明】 通过结合附图参考以下对示意性实施例的详细描述,将最好地理解本专利技术及其优 选使用模式和更多的目的和优点,附图中: 图1是可实现示意性实施例的各方面的分布式数据处理系统的示例图; 图2是可实现示意性实施例的各方面的计算设备的示例框图; 图3是根据一个示意性实施例的关系型上下文匿名化系统的主要操作元素的示 例框图; 图4A-4C是示出根据一个示意性实施例的上下文内的词语的罕见性权重和出现 次数的图线的示例图。 图5是概述根据一个示意性实施例的用于对要返回给请求方计算设备的数据进 行匿名化的操作的流程图; 图6是概述根据一个示意性实施例的用于生成组合罕见性矩阵和罕见性函数的 操作的流程图;并且 图7是概述根据一个示意性实施例的用于基于组合罕见性矩阵对信息的语料库 进行匿名化的操作的流程图。 【具体实施方式】 如上所述,已开发了匿名化系统来基于预定的字段、关键字和模式匹配来去除或 模糊个人可识别信息(personally identifiable informat ion, PII )。虽然这种匿名化技术 在对大型未定义一般个体集合应用匿名化时可良好地工作,但这些匿名化系统在数据与良 好定义的群组相关联时可能不会完全匿名化数据。也就是说,被去除或模糊的典型信息可 能仍会留下其他信息,这些其他信息在一般的未定义个体集合中可能不是个人可识别的, 但在良好定义的群组的上下文内却可能是个人可识别的。换言之,存在如下问题,即,在相 关数据的上下文内,个体的信息可能从该群组中突出出来,这实际上在该群组内识别了该 个体。从而,已知的匿名化机制不能够对围绕相关上下文定义的个体的群组的数据进行匿 名化。 作为进一步说明已知的匿名化机制中的这个缺陷的一个示例,考虑参与一癌症治 疗项目的20个人的群组。一计算系统,例如数据库查询系统、问答系统,例如可从纽约州阿 蒙克市的国际商用机器公司获得的Watson?问答系统等等,可接收这20个人的关于个人信 息、人口统计资料的数据,以及关于医疗状况的信息,包括这些个体的癌症的某个阶段和类 型。在这20个人内,其中的少数几个可由其医疗历史中的映射到某一癌症类型和治疗选项 的罕见类型的效果来标记。 已知的匿名化系统和技术可从计算系统取回并呈现的数据中匿名化姓名、地址、 社会安全号和其他一般非上下文敏感个人可识别信息。然而,这些个体中的某些个体的 医疗历史中的罕见类型的效果可能不被匿名化,因为此信息一般不被认为是个人可识别 信息。但是,在这个癌症治疗项目参与者的良好定义的群组的上下文内,该罕见类型的效 果一可能与其他未被匿名化的信息相结合一可在该良好定义的群组的上下文内唯一 地识别个体。 这里的示意性实施例提供了机制,用于基于个体的良好定义群组上的关系型上下 文,即,该良好定义群组内的个体的确立该良好定义群组内的个体之间的关系并将这些个 体与不在该良好定义群组内的其他个体相区分的一个或多个共同属性的集合,来识别并匿 名化敏感的个人可识别信息。利用示意性实施例的机制,给定与指定的关系型上下文相关 联的数据的集本文档来自技高网
...
用于数据的关系型上下文敏感匿名化的方法和系统

【技术保护点】
一种包括处理器和存储器的数据处理系统中的用于数据的关系型上下文敏感匿名化的方法,包括:由所述数据处理系统接收对数据的请求,其中所述请求指定与所选人的所选群组相对应的关系型上下文,所述所选人的所选群组是基于所述关系型上下文从人的全局群组中选择的,并且其中所述关系型上下文指定所述所选群组中的所选人的一个或多个属性,这一个或多个属性确立所述所选人之间的关系并且将所述所选人与所述全局群组中的不在所述所选群组中的非所选人相区分;由所述数据处理系统,对于与所述所选群组相对应的关系型上下文,基于与所述所选群组中的所选人相对应的个人信息数据的语料库,确定所述个人信息数据中的一个或多个关键属性;由所述数据处理系统确定所述一个或多个关键属性中的每个关键属性在所述所选群组的关系型上下文内的罕见性值;以及由所述数据处理系统基于所确定的每个关键属性在所述所选群组的关系型上下文内的罕见性值来匿名化所述一个或多个关键属性中的所选关键属性。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:C·O·艾仑S·R·凯瑞尔H·墨斯三世E·伍兹
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1