Systems and methods for calculating a compromise between data privacy and utility are disclosed. Large data centers such as data markets are data sources that may be useful to data buyers. However, the output data provided to the data seller needs to meet the privacy requirements of the data seller while maintaining the data buyer's utility level. Traditionally known approaches to data privacy tend to mask data segments that may lead to reduced data utility. The systems and methods disclosed herein calculate such a compromise to establish the need for data transformation, if any, before sharing data with data sellers.
【技术实现步骤摘要】
【国外来华专利技术】用于计算数据隐私-效用折衷的系统和方法相关申请的交叉引用及优先权本申请要求于2016年2月22日提交的第201621006136号印度临时专利申请的优先权,其全部内容通过引用合并于此。
本文的实施例总体涉及信息安全,并且更具体地涉及用于评估数据的隐私和效用之间的折衷的系统和方法。
技术介绍
隐私通常是一种免受公众注意的状态,或者是一种不被其他人观察或干扰的状态。当链接来自分布式源的敏感数据时,必须考虑隐私威胁。在这个全球化时代,组织机构可能需要与商业伙伴一起公布微观数据,以保持竞争力。这会使个人隐私受到威胁。同样,今天人们对智能电话和平板电脑的依赖程度很高。这些设备包含大量个人信息,因为它们可以执行大量操作。人们访问他们的银行账户、购买和支付账单,使这些设备成为网络罪犯的潜在目标。行为方面也增加了隐私风险。人们并不总是知道谁在跟踪它们以及如何使用跟踪信息。因此,防止身份盗用是大多数行业的首要任务之一,包括健康、金融、政府、制造业、银行业、零售业、保险业、外包业。为了克服隐私风险,传统上,通常通过随机值来消除或遮蔽清楚地识别个人的属性,诸如姓名、社会保险号码、驾驶证号码等。例如,考虑以下表格,这些表格是医疗数据库的一部分。表(a)与微观数据有关,并且表(b)与公共数据或投票登记数据有关。表(a):医疗数据(微观数据)表(b):投票登记数据(公开)姓名性别出生日期邮编Andre男21/7/7952000Beth女10/1/8143000Carol女1/10/4432000Dan男21/2/8427000Ellen女19/4/7241000表(a)的属性“疾病” ...
【技术保护点】
1.一种处理器实现的方法(200),包括:由数据连接器接收来自一个或多个数据源的数据,以使所述数据能够被一个或多个数据购买方使用(202);由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据(204);由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间(206);由攻击者模型生成器通过将所述搜索空间划分为贮体集合来生成攻击者模型,每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的所述至少一种敏感属性(208);由所述攻击者模型生成器计算每个所述贮体集合的贮体计数,并且从所述贮体集合中创建所述贮体的贮体组合(210);由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据(212);由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数(214);由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数(216);以及由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据(218)。
【技术特征摘要】
【国外来华专利技术】2016.02.22 IN 2016210061361.一种处理器实现的方法(200),包括:由数据连接器接收来自一个或多个数据源的数据,以使所述数据能够被一个或多个数据购买方使用(202);由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据(204);由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间(206);由攻击者模型生成器通过将所述搜索空间划分为贮体集合来生成攻击者模型,每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的所述至少一种敏感属性(208);由所述攻击者模型生成器计算每个所述贮体集合的贮体计数,并且从所述贮体集合中创建所述贮体的贮体组合(210);由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据(212);由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数(214);由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数(216);以及由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据(218)。2.根据权利要求1所述的处理器实现的方法,其中,所述至少一种敏感属性包括二进制文本、分类文本、数字文本和描述性文本中的一者或多者。3.根据权利要求1所述的处理器实现的方法,其中,生成所述攻击者模型包括:针对基于所述预定义知识库的所述至少一种敏感属性中的每一者,基于(a)预定义值范围和(b)预定义上下限之一来生成所述贮体集合。4.根据权利要求3所述的处理器实现的方法,其中,由所述流入数据分析器基于所述至少一种敏感属性来计算所述值范围以及所述上下限。5.根据权利要求1所述的处理器实现的方法,其中,清理所述隐私数据包括以下之一:(i)层级掩蔽技术、(ii)贮体掩蔽技术、(iii)聚类技术以及(iv)混排技术。6.根据权利要求5所述的处理器实现的方法,其中,执行所述混排技术以获得平衡贮体,其中,每个贮体组合具有平衡的实体计数。7.根据权利要求6所述的处理器实现的方法,还包括由数据隐私-效用折衷计算器基于所述平衡贮体的中点和所述隐私数据来计算效用指数(220)。8.根据权利要求7所述的处理器实现的方法,还包括由所述数据隐私-效用折衷计算器基于所述贮体和所述平衡贮体之间的变化数量来计算属性变化(222)。9.根据权利要求1所述的处理器实现的方法,还包括基于所接收的数据不断学习并更新所述攻击者模型(224)。10.根据权利要求9所述的处理器实现的方法,还包括以下中的一者或多者:由决策助手模块基于所接收的数据向数据销售方提供推荐(226);由流出数据分析器评估所述输出数据以匹配所述一个或多个数据购买方的要求(228);和由数据发布管理模块基于所述决策助手模块的推荐来确定发布计划(230);由报告和警报管理模块基于所述输出数据生成评估报告和警报(2...
【专利技术属性】
技术研发人员:D·托马斯,S·P·洛哈,V·M·巴纳哈蒂,K·帕德马纳汗,K·马什瓦尔,
申请(专利权)人:塔塔顾问服务有限公司,
类型:发明
国别省市:印度,IN
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。