数据匿名化制造技术

技术编号:26180978 阅读:42 留言:0更新日期:2020-10-31 14:44
本公开涉及一种用于数据库系统的数据匿名化的方法。该方法包括:确定数据库系统的第一数据集和第二数据集是否具有指示在这两个数据集中的至少一个数据集中具有值的实体的关系。可以接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求。在第一数据集和第二数据集具有所述关系的情况下,可以修改第一数据集和第二数据集中的至少一个数据集,使得对实体的指示不可由用户访问。并且可以提供所请求的数据集。

【技术实现步骤摘要】
【国外来华专利技术】数据匿名化
技术介绍
本专利技术涉及数字计算机系统的领域,更具体地,涉及一种用于数据匿名化的方法。隐私法规不允许将个体的数据用于某种分析,除非他们明确声明他们同意这种使用。另一方面,收集和存储个人数据并且在分析中使用它可能是可接受的,只要数据是匿名的。例如,如果由控制器处理的数据不允许控制器识别出个人,则可以分析该数据。然而,这要求匿名化被正确地且充分地应用以防止识别出与私人数据相关联的实体。
技术实现思路
各种实施例提供了如独立权利要求的主题所述的用于数据匿名化的方法、计算机系统和计算机程序产品。在从属权利要求中描述了有利的实施例。如果本专利技术的实施例不是相互排斥的,则它们可以彼此自由地组合。在一个方面,本专利技术涉及一种用于数据库系统的数据匿名化的方法。该方法包括:(a)确定数据库系统的第一数据集和第二数据集是否具有指示在这两个数据集中具有值(例如,属性值)的实体的关系;(b)接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求;(c)在第一数据集和第二数据集具有所述关系的情况下,修改第一数据集和第二数据集中的至少一个数据集,使得对实体的指示不可由用户访问;(d)提供所请求的数据集。在另一方面,本专利技术涉及一种包括计算机可读存储介质的计算机程序产品,该计算机可读存储介质具有随其体现的计算机可读程序代码,该计算机可读程序代码被配置为实施根据前述实施例所述的方法的所有步骤。在另一方面,本专利技术涉及一种用于数据库系统的数据匿名化的计算机系统。该计算机系统被配置为:(a)确定数据库系统的第一数据集和第二数据集是否具有指示在这两个数据集中具有值的实体的关系;(b)接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求;(c)在第一数据集和第二数据集具有所述关系的情况下,修改第一数据集和第二数据集中的至少一个数据集,使得对实体的指示不可由用户访问;(d)提供所请求的数据集。附图说明下面,仅通过示例,参考附图更详细地解释本专利技术的实施例,其中:图1描绘了根据本公开的存储系统的框图;图2是用于对数据库系统的数据进行数据匿名化的方法的流程图;图3描述了根据本专利技术实施例的云计算环境;以及图4示出了根据本专利技术实施例的抽象模型层。具体实施方式本专利技术的各种实施例的描述将出于说明的目的而呈现,但这些描述并不旨在穷举或限于所公开的各实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的各实施例。术语“数据集”或“信息资产”是指一个或多个数据元素的集合。数据元素可以是例如文档、数据值或数据记录。例如,可以以包含在文件中的相关记录的集合的形式提供数据集,例如,数据集可以是包含班级中所有学生的记录的文件。记录是相关数据项(例如,学生的学号、生日、班级)的集合。记录表示实体,其中实体具有诸如学生的不同且独立的存在。数据集可以是例如数据库的表格或Hadoop文件系统的文件等。在另一示例中,数据集可以包括诸如HTML页面或其他文档类型的文档。文档可以包括例如患者的数据。例如,在两个数据集中具有值的实体可以例如是在第一数据集和第二数据集中的至少一个数据集中具有至少一个记录的实体。例如,关系可以指示在第一数据集中具有记录的患者X在第二数据集中也具有另一相关记录(例如,患者X的两个记录可以通过他的地址而链接,其中第一记录没有患者X的全名而第二记录包含患者X的全名)。因此,患者X是由第一数据集和第二数据集之间的关系指示的实体。两个数据集之间的关系可以是数据集的一个或多个列/属性与其他数据集的其他一个或多个列之间的链接。例如,关系可以是主外键(primaryforeignkey,PK-FK)关系。在另一示例中,关系可以包括从一个文档到另一文档的链接,诸如从XML文档指向包含关于相同实体的更多信息的另一文档的链接,或者来自包含相关信息的非结构化文档的链接。如果数据作为三元组而存储在三元组存储中(例如:RDF(ResourceDescriptionFramework,资源描述框架)数据),或者数据被存储在图形DB(database,数据库)中,则关系可以是一个实体与另一实体之间的链接。关系可以例如使得能够将第一数据集和第二数据集联合在一起,使得表示相同实体的第一数据集的记录和第二数据集的记录被合并在联合的数据集的新的单个记录中,该新的单个记录表示包含在两个数据集中的相同实体的组合信息。尽管两个数据集被各自匿名化,但是组合信息可能泄露该实体的机密数据。术语“用户”是指实体,例如个体、计算机或在计算机上运行的应用、容器、文件系统、目录。用户可以表示例如一组用户。数据库系统可以包括用于存储数据集的一个或多个存储装置。数据库系统可以包括例如文档存储、三元组存储、图形DB和关系数据库中的至少一个。第一数据集和第二数据集可以存储在数据库系统的相同或不同存储装置上。在访问信息资产以进行处理时,例如可以进行检查以查看资产是否包含敏感信息和是否需要匿名化。如果是,则应用使用预定义数据屏蔽(mask)技术的适当匿名化措施。如果两个或多个信息资产被标记为组合使用,则检查这是否将产生对匿名化的潜在破坏。如果是,则应用使用预定义屏蔽技术的适当匿名化措施。可以对已经为信息资产建立并在信息管控目录中注册的技术元数据实施检查。本方法可以在两个或更多个信息资产被集合到一起的情况下防止数据匿名化的损失,其中每个信息资产单独地被充分匿名化,但是一起使用的信息资产破坏了数据匿名化。本方法在大数据和数据湖架构的情况下尤其有利,尤其是在像数据湖中的大规模Hadoop集群那样的单个系统存储数以万计的信息资产的情况下,这些信息资产可供数据科学家一起分析并且具有可能无法提前迎合的许多组合。对于这种系统,本方法可以提供一种方式来预期哪些信息资产可以在一个数据分析中一起使用。例如,本方法可以避免对匿名化的破坏,其中对匿名化的破坏可以具有以下特性。在两个或更多个信息资产之中,可以联合一个或多个属性。在两个或更多个信息资产之中,在一个信息资产中必须根据信息管控策略来对特定实体或属性组或属性进行屏蔽。并且,在两个或更多个信息资产之中,至少在一个信息资产中,不对其他资产之一中的受保护域进行屏蔽,从而允许一旦被联合就破坏匿名化。另一优点可以在于,本方法可以通过在需要的情况下确保数据匿名化来实现积极主动的且自动化的数据保护措施,从而提供数据保护与数据可用性之间的最佳平衡。例如,如果两个数据集各自被彼此独立地访问,则这两个数据集可以各自被匿名化,并且不能是任何敏感信息的源。然而,由于用户可以组合第一数据集和第二数据集来访问实体,因此本方法通过在接收到对两个数据集之一的请求时已经执行修改来后验地行动,从而预期用户可能在稍后阶段单独请求第二数据集的情况。在其他方面,这本文档来自技高网...

【技术保护点】
1.一种用于数据库系统的数据匿名化的方法,所述方法包括:/n确定所述数据库系统的第一数据集和第二数据集是否具有指示在第一数据集和第二数据集中都具有值的实体的关系;/n接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求;/n在第一数据集和第二数据集具有所述关系的情况下,通过修改第一数据集和第二数据集中的至少一个数据集使得所述实体不可由所述用户访问,来产生所请求的数据集;以及/n提供所请求的数据集。/n

【技术特征摘要】
【国外来华专利技术】20180319 US 15/924,3451.一种用于数据库系统的数据匿名化的方法,所述方法包括:
确定所述数据库系统的第一数据集和第二数据集是否具有指示在第一数据集和第二数据集中都具有值的实体的关系;
接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求;
在第一数据集和第二数据集具有所述关系的情况下,通过修改第一数据集和第二数据集中的至少一个数据集使得所述实体不可由所述用户访问,来产生所请求的数据集;以及
提供所请求的数据集。


2.根据权利要求1所述的方法,其中,第一数据集和第二数据集包括记录,每个记录是相应实体的属性值的组合,其中所述相应实体具有指示第一数据集和第二数据集的至少一个记录的实体的关系。


3.根据前述权利要求中任一项所述的方法,还包括确定所述数据库系统的所有数据集之间的关系,以及提供包括关于所确定的关系的信息的元数据结构,其中使用所述元数据结构来确定第一数据集和第二数据集是否具有所述关系。


4.根据权利要求3所述的方法,还包括响应于所述数据库系统中的改变,重新确定所述数据库系统的第一数据集和第二数据集之间的关系,并且相应地更新所述元数据结构。


5.根据前述权利要求中任一项所述的方法,其中,响应于确定所述用户对所述实体的访问将违反预定义的管控策略,修改第一数据集和第二数据集中的至少一个数据集。


6.根据前述权利要求中任一项所述的方法,其中,确定所述关系是否指示所述实体包括:
识别第一数据集中的一个或多个源列,所述一个或多个源列引用第二数据集中的相应目标列;
组合所述源列和所述目标列;以及
基于组合所述源列和所述目标列来确定所述关系指示或不指示所述实体。


7.根据权利要求6所述的方法,其中,组合所述源列和所述目标列是使用SQL联合操作来执行的。


8.根据前述权利要求中任一项所述的方法,其中,所确定的关系是主外键关系。


9.根据前述权利要求中任一项所述的方法,还包括响应于接收到所述请求并且响应于确定第一数据集和第二数...

【专利技术属性】
技术研发人员:M奥伯霍弗A迈尔Y赛莱特
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1