用于计算数据隐私-效用折衷的系统和方法技术方案

技术编号:19561937 阅读:23 留言:0更新日期:2018-11-25 00:31
公开了用于计算数据隐私‑效用折衷的系统和方法。诸如数据市场的大型数据中心是可能对数据购买方有用的数据源。然而,提供给数据销售方的输出数据需要满足数据销售方的隐私要求,同时保持数据购买方的效用水平。传统上已知的实现数据隐私的方法倾向于遮蔽可能导致数据效用降低的数据部分。本公开的系统和方法在与数据销售方共享数据之前,计算这种折衷以建立对数据变换的需要(如果有的话)。

Systems and Methods for Computing Data Privacy-Utility Trade-offs

Systems and methods for calculating a compromise between data privacy and utility are disclosed. Large data centers such as data markets are data sources that may be useful to data buyers. However, the output data provided to the data seller needs to meet the privacy requirements of the data seller while maintaining the data buyer's utility level. Traditionally known approaches to data privacy tend to mask data segments that may lead to reduced data utility. The systems and methods disclosed herein calculate such a compromise to establish the need for data transformation, if any, before sharing data with data sellers.

【技术实现步骤摘要】
【国外来华专利技术】用于计算数据隐私-效用折衷的系统和方法相关申请的交叉引用及优先权本申请要求于2016年2月22日提交的第201621006136号印度临时专利申请的优先权,其全部内容通过引用合并于此。
本文的实施例总体涉及信息安全,并且更具体地涉及用于评估数据的隐私和效用之间的折衷的系统和方法。
技术介绍
隐私通常是一种免受公众注意的状态,或者是一种不被其他人观察或干扰的状态。当链接来自分布式源的敏感数据时,必须考虑隐私威胁。在这个全球化时代,组织机构可能需要与商业伙伴一起公布微观数据,以保持竞争力。这会使个人隐私受到威胁。同样,今天人们对智能电话和平板电脑的依赖程度很高。这些设备包含大量个人信息,因为它们可以执行大量操作。人们访问他们的银行账户、购买和支付账单,使这些设备成为网络罪犯的潜在目标。行为方面也增加了隐私风险。人们并不总是知道谁在跟踪它们以及如何使用跟踪信息。因此,防止身份盗用是大多数行业的首要任务之一,包括健康、金融、政府、制造业、银行业、零售业、保险业、外包业。为了克服隐私风险,传统上,通常通过随机值来消除或遮蔽清楚地识别个人的属性,诸如姓名、社会保险号码、驾驶证号码等。例如,考虑以下表格,这些表格是医疗数据库的一部分。表(a)与微观数据有关,并且表(b)与公共数据或投票登记数据有关。表(a):医疗数据(微观数据)表(b):投票登记数据(公开)姓名性别出生日期邮编Andre男21/7/7952000Beth女10/1/8143000Carol女1/10/4432000Dan男21/2/8427000Ellen女19/4/7241000表(a)的属性“疾病”是敏感属性。如果个人不愿意透露该属性,或者不允许攻击者发现该属性的值,则该属性称为敏感属性。属性集{性别、出生日期和邮编}称为准标识符(QI)属性;通过链接这两个表的QI属性,攻击者可以从投票登记数据中识别属性“姓名”。敏感属性本身不敏感,但特定值或其组合可能与外部信息相关联,以揭示个体的间接敏感信息。因此,准标识符在组合时可以成为个人标识信息。准标识符已成为对已发布数据的多次攻击的基础。因此,能够识别准标识符并向其应用适当的保护措施以缓解身份公开风险至关重要。如果将自然结合应用于具有受遮蔽的医学数据的表(c)和上面的表(b),则可以容易地借助于准标识符重新识别个体,如下文所解释的。表(c):受遮蔽的医疗数据(微观数据)表(d):受遮蔽的表(c)和表(b)的结合:从自然结合表(b)的表(c)中选择姓名、性别、出生日期、邮编、疾病数据隐私在数据交易中起着重要作用。存在若干数据公布技术,其倾向于执行数据变换以维护隐私。然而,值得注意的是,数据的特定组成部分的一般性和遮蔽可能会影响消费者可以获得的数据的效用以及值。量化隐私和效用之间的折衷是一种需要解决的挑战,以便数据销售方和数据购买方做出明智的决策。
技术实现思路
本公开的实施例呈现技术改进作为本专利技术人在传统系统中认识到的一个或多个上述技术问题的解决方案。一方面,提供一种方法,包括:由数据连接器接收来自一个或多个数据源的数据,以使所述数据能够被一个或多个数据购买方使用;由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据;由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间;由攻击者模型生成器通过将所述搜索空间划分为贮体(bucket)集合来生成攻击者模型,每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的至少一种敏感属性;由所述攻击者模型生成器计算每个所述贮体集合的贮体计数,并且从所述贮体集合中创建所述贮体的贮体组合;由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据;由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数;由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数;以及由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据。另一方面,提供一种系统,包括:一个或多个处理器;和一个或多个内部数据存储设备,其可操作地耦合到一个或多个处理器,用于存储配置为由一个或多个处理器执行的指令,该指令包括在以下器件中:数据连接器,其配置为接收来自一个或多个数据源的数据以用于使数据可被一个或多个数据购买方使用;流入数据分析器,其配置为分析所接收的数据以提取并处理所接收的数据的元数据,以及基于与数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间;攻击者模型生成器,其配置为通过将搜索空间划分为贮体集合(每个集合对应于具有与至少一种敏感属性相关联的隐私数据的至少一种敏感属性)来生成攻击者模型,计算贮体集合中的每一者的贮体计数并从贮体集合中创建贮体的贮体组合,利用来自贮体的掩蔽贮体来替换与至少一种敏感属性中的每一者相关联的隐私数据,基于分配给隐私数据的掩蔽贮体来计算每个贮体组合的实体计数,基于计算出的实体计数和预定义隐私阈值来计算匿名指数,并且基于所接收的数据来不断学习并更新攻击者模型;数据掩蔽模块,其配置为基于计算出的匿名指数清理隐私数据以生成输出数据;决策助手模块,其配置为基于所接收的数据来向数据销售方提供推荐;流出数据分析器,其配置为评估输出数据以匹配一个或多个数据购买方的要求;数据发布管理模块,其配置为基于决策助手模块的推荐来确定发布计划;报告和警报管理模块,其配置为基于输出数据来生成评估报告和警报;以及事件记录模块,其配置为记录与输出数据相关联的事件。在实施例中,本公开的系统还可以包括数据隐私-效用折衷计算器,其配置为:基于平衡贮体的中点和隐私数据来计算效用指数;并且基于贮体和平衡贮体之间的变化数量来计算属性变化。又一方面,提供一种计算机程序产品,其包括存储有计算机可读程序的非暂时性计算机可读介质,其中该计算机可读程序在计算设备上执行时使计算设备:接收来自一个或多个数据源的数据,以使数据可被一个或多个数据购买方使用;分析所接收的数据以提取并处理所接收的数据的元数据;基于与数据相关联的预定义知识库,从经处理的元数据中识别包括至少一个敏感属性的搜索空间;通过将搜索空间划分为贮体(bucket)集合来生成攻击者模型,每个集合对应于具有与至少一种敏感属性相关联的隐私数据的至少一种敏感属性;计算每个贮体集合的贮体计数,并从贮体集合中创建贮体的贮体组合;利用来自贮体的掩蔽贮体替换与至少一种敏感属性中的每一者相关联的隐私数据;基于分配给隐私数据的掩蔽贮体来计算每个贮体组合的实体计数;基于计算出的实体计数和预定义隐私阈值来计算匿名指数;以及基于计算出的匿名指数来清理隐私数据,以生成输出数据。在本公开的实施例中,至少一种敏感属性包括二进制文本、分类文本、数字文本和描述性文本中的一者或多者。在本公开的实施例中,攻击者模型生成器还配置为针对基于预定义知识库的至少一种敏感属性中的每一者,基于(a)预定义值范围和(b)预定义上下限之一来生成贮体集合。在本公开的实施例中,由流入数据分析器基于至少一种敏感属性来计算值范围以及上下限。在本公开的实施例中,数据掩蔽模块还配置为通过(i)层级掩蔽技术、(ii)贮体掩蔽技术、(本文档来自技高网
...

【技术保护点】
1.一种处理器实现的方法(200),包括:由数据连接器接收来自一个或多个数据源的数据,以使所述数据能够被一个或多个数据购买方使用(202);由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据(204);由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间(206);由攻击者模型生成器通过将所述搜索空间划分为贮体集合来生成攻击者模型,每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的所述至少一种敏感属性(208);由所述攻击者模型生成器计算每个所述贮体集合的贮体计数,并且从所述贮体集合中创建所述贮体的贮体组合(210);由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据(212);由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数(214);由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数(216);以及由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据(218)。

【技术特征摘要】
【国外来华专利技术】2016.02.22 IN 2016210061361.一种处理器实现的方法(200),包括:由数据连接器接收来自一个或多个数据源的数据,以使所述数据能够被一个或多个数据购买方使用(202);由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据(204);由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间(206);由攻击者模型生成器通过将所述搜索空间划分为贮体集合来生成攻击者模型,每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的所述至少一种敏感属性(208);由所述攻击者模型生成器计算每个所述贮体集合的贮体计数,并且从所述贮体集合中创建所述贮体的贮体组合(210);由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据(212);由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数(214);由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数(216);以及由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据(218)。2.根据权利要求1所述的处理器实现的方法,其中,所述至少一种敏感属性包括二进制文本、分类文本、数字文本和描述性文本中的一者或多者。3.根据权利要求1所述的处理器实现的方法,其中,生成所述攻击者模型包括:针对基于所述预定义知识库的所述至少一种敏感属性中的每一者,基于(a)预定义值范围和(b)预定义上下限之一来生成所述贮体集合。4.根据权利要求3所述的处理器实现的方法,其中,由所述流入数据分析器基于所述至少一种敏感属性来计算所述值范围以及所述上下限。5.根据权利要求1所述的处理器实现的方法,其中,清理所述隐私数据包括以下之一:(i)层级掩蔽技术、(ii)贮体掩蔽技术、(iii)聚类技术以及(iv)混排技术。6.根据权利要求5所述的处理器实现的方法,其中,执行所述混排技术以获得平衡贮体,其中,每个贮体组合具有平衡的实体计数。7.根据权利要求6所述的处理器实现的方法,还包括由数据隐私-效用折衷计算器基于所述平衡贮体的中点和所述隐私数据来计算效用指数(220)。8.根据权利要求7所述的处理器实现的方法,还包括由所述数据隐私-效用折衷计算器基于所述贮体和所述平衡贮体之间的变化数量来计算属性变化(222)。9.根据权利要求1所述的处理器实现的方法,还包括基于所接收的数据不断学习并更新所述攻击者模型(224)。10.根据权利要求9所述的处理器实现的方法,还包括以下中的一者或多者:由决策助手模块基于所接收的数据向数据销售方提供推荐(226);由流出数据分析器评估所述输出数据以匹配所述一个或多个数据购买方的要求(228);和由数据发布管理模块基于所述决策助手模块的推荐来确定发布计划(230);由报告和警报管理模块基于所述输出数据生成评估报告和警报(2...

【专利技术属性】
技术研发人员:D·托马斯S·P·洛哈V·M·巴纳哈蒂K·帕德马纳汗K·马什瓦尔
申请(专利权)人:塔塔顾问服务有限公司
类型:发明
国别省市:印度,IN

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1