流数据的匿名化制造技术

技术编号:14012257 阅读:74 留言:0更新日期:2016-11-17 13:34
提供了用于对流数据进行匿名化的技术。在各个实施例中,通过以下而对数据进行匿名化:接收数据流的数据元素(pi,si),其中pi包括识别部分且si包括相关联的敏感信息;将识别部分pi指定至划分空间S的分区Si;将相关联的敏感信息si加密为e(si);并且将经加密的相关联敏感信息e(si)存储在与所指定分区Si相关联的列表之中。可选地,排列函数π使得划分空间S中的分区S1,S2,…,St被存储的顺序进行随机化而使得对手无法通过观察存储在特定分区之中的数据而获得信息。分区S1,S2,…,St具有相对应的中心C1,C2,…,Ct,并且可选地确定与pi最接近的中心Ci。经加密的相关联敏感信息e(si)可以被存储在与最接近的中心Ci相关联的列表中。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及用于使得数据匿名化的技术、装置和系统。
技术介绍
该部分介绍了可能有助于促成对本专利技术的更好理解的多个方面。一次,该部分的声明要鉴于此进行阅读而并不被理解为承认哪些内容属于现有技术而哪些则并不属于现有技术。经常期望对敏感数据的流进行变换、预处理和存储,而使得能够在不对任何个人的数据隐私性作出妥协的情况下对经变换的数据进行分析。流传输数据中的每个数据项通常包括识别个人的第一元素,诸如姓名或地址,以及包含有关该个人的一些私人和/或敏感信息的第二元素,诸如该个人所患疾病。数据的识别部分应当被变换而使得经处理的流能够以允许该数据在保持个人隐私的同时被分析的方式被保存以便随后进行分析。通常,观看经变换数据和相关联敏感数据的研究和/或分析人员应当能够分析该数据并且作出有关该数据的合理(虽然是近似的)结论,而无法识别任何特定个人的敏感信息。例如,研究人员可能希望对特定邻近地区的疾病进行研究。数据匿名化技术能够解决隐私问题并且帮助符合可应用的法律要求。已经提出或建议了多种数据匿名化技术,它们通过确保经变化的数据具有某些特性而实现了各种隐私性目标。例如,k匿名性技术要求数据集合中的每个个体必须能够与k-1个其它个体进行区分。此外,l多样性技术在与个体相关联的敏感信息中提供了充分的多样性。仍然需要有所改进的技术以便有效分析数据而使得数据的多个部分能够被公开并且与他人进行分享。
技术实现思路
总体上,提供了用于对数据流中的数据进行匿名化的方法和装置。根据一个实施例,通过以下而对数据流中的数据进行匿名化:接收数据流的数据元素(pi,si),其中pi包括识别部分且si包括相关联的敏感信息;将识别部分pi指定至划分空间S的分区Si;将相关联的敏感信息si加密为e(si);并且将经加密的相关联敏感信息e(si)存储在与所指定分区Si相关联的列表之中。根据另外的实施例,排列函数π可选地使得划分空间S中的分区S1,S2,…,St被存储的顺序进行随机化而使得对手无法通过观察存储在特定分区之中的数据而获得信息。因此,与分区Si相关联的列表使用一个或多个排列函数和散列表而被可选地映射至存储位置。在一个示例实施例中,空间S被划分为具有相对应中心点C1,C2,…,Ct的分区S1,S2,…,St,并且最接近的中心Ci被计算为pi;并且经加密的相关联敏感信息e(si)被存储在与所计算的最接近中心Ci相关联的列表中。另一个实施例提供了用户指定的距离参数d,而使得针对固定距离d存在足够的中心点C1,C2,…,Ct,从而针对S中的任何点p而言都存在一些中心Ci而使得p距Ci处于最大距离d。距离d通常是不同的经变换识别信息与每个数据元素的识别部分相比必须有多么不同的限制。通过参考以下详细描述和附图将会获得对本公开更为完整的理解以及各个实施例另外的特征和优势。附图说明图1是能够实施各个实施例的处理的示例流数据匿名化系统的框图;图2图示了对应于示例地理区域的空间S,其被划分为均具有相对应中心C1,C2,…,Ct的多个示例分区S1,S2,…,St;和图3是图示整合本专利技术多个方面的流数据匿名化处理的示例实施方式的流程图。具体实施方式这里所描述的实施例提供了用于对流数据进行匿名化的方法、装置和系统。图1图示了示例的流数据匿名化系统100,例如能够实施本公开范围内的处理的实施例的计算机系统。该示例系统100依据各个实施例对包括敏感数据的数据流进行处理。流传输数据中的每个数据项(p,s)通常包括识别个人的第一元素p,诸如地址;以及包含一些有关该个人的私人和/或敏感信息的第二元素s,诸如该个人所患疾病。各个实施例都反映出未经保护的敏感信息不应当被写入磁盘的认识,即使该写入是临时的,因为这使得要确保数据的保护在技术上更具挑战。重要的是,这对于大量重要应用而言可能构成法律要求。如图1所示,存储器130对处理器120进行配置以实施这里所公开的流数据匿名化方法、步骤和功能(总体上,如图1中的150所示并且在下文中结合图3进一步进行讨论)。存储器130能够是分布式的或本地的,并且处理器120能够是分布式的或单个的。存储器130能够被实施为电、磁性或光学存储器,或者这些或其它类型的存储设备的任意组合。应当注意的是,构成处理器120的每个分布式处理器通常包含其自己的可寻址存储器空间。还应当注意的是,系统100的一些或全部能够被整合到个人计算机、膝上计算机、手持计算设备、应用特定电路或通用集成电路之中。考虑其中经变换的识别数据p’连同相关联的敏感数据s一起仅能够在作为这样的数据的集合的一部分进行写入时才能够被存储或传送,所有这些数据都具有相同的经变换的识别数据p’并且具有个人的敏感数据s都无法被确定的属性(例如,所谓的k匿名性要求)。该目标能够利用以下约束来实现,存在未经变换的数据(p,s)能够被存储于其中的固定大小的RAM缓冲器。根据另外的实施例,可选地规定出经变换的识别数据p’与每个个人的真实识别数据p相比必须由多么不同的限制。以这种方式,近似的变换数据(p',s)能够是真实数据的良好表示形式(p,s)。如随后所讨论的,示例实施例使用语义上安全的加密、(随机选择的)排列函数π或者散列表和聚类启发式算法的组合。各个实施例反映出中间敏感数据只要其被加密就能够被存储在诸如存储磁盘、闪存设备或网络存储设备之类的存储设备上或者通过网络进行存储的认识。示例系统100采用一个或多个存储磁盘170上的磁盘空间作为RAM的安全扩展以在与划分空间S中的特定子分区Si相关联的特定列表L(π(i))上存储经变换的识别数据p’和加密敏感数据e(s)。一旦诸如的特定列表L(j)满足预定义的匿名性标准(例如,该列表具有至少k个元素),则如以下进一步结合图3所讨论的,在示例实施例中,该列表的元素就被加密并且以下数值被输出至磁盘170(或另一个存储或传输设备):该列表的中心Cj以及来自该列表的解密敏感数据数值。在其它变化形式中,能够提供列表或分区的任意标识符。虽然这里通过找出划分空间S中的分区的最接近中心Cj而度示例实施例进行了说明,但是如本领域技术人员将会显而易见的,能够采用任意形式的分区划分。在另一种示例变化形式中,空间S能够被划分为网格,并且在未经变换的数据(p,s)进入系统100时,该数据例如能够基于网格单元的x和y范围而被归类至空间S的特定分区Si之中。该示例实施例假设数据的识别部分p来自于其中定义了距离的空间,诸如欧几里得空间。因此,例如,该数据可以是位置数据或者任意其它元组,其中该元组的每个分量具有距离量度(自此,元组之间的距离能够通过任意的多维量度进行定义,诸如L1,L2(欧几里得量度),…,或L-无限大)。令S表示所有可能识别数据的空间。如以上所指示的,经常想要对敏感数据的流进行变换、预处理和存储而使得经变换的数据(p',s)能够在并不危害任何个人的数据隐私性的情况下被分析。通常,看到经变换的识别数据p'以及相关联的敏感数据s的研究人员和/或分析人员应当能够对数据s进行研究并且关于数据s作出合理(虽然是近似的)结论,而却无法识别任何特定个人的敏感信息p。例如,研究人员可能希望对特定邻近地区的疾病进行研究。一些实施例在将敏感数据s写入磁盘—诸如示例磁盘170—之前对其本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580015843.html" title="流数据的匿名化原文来自X技术">流数据的匿名化</a>

【技术保护点】
一种方法,包括:接收数据流的数据元素(pi,si),其中pi包括识别部分且si包括相关联的敏感信息;将所述识别部分pi指定至划分空间S的分区Si;将所述相关联的敏感信息si加密为e(si);并且将所述经加密的相关联敏感信息e(si)存储在与所述所指定分区Si相关联的列表之中。

【技术特征摘要】
【国外来华专利技术】2014.03.26 US 14/225,7201.一种方法,包括:接收数据流的数据元素(pi,si),其中pi包括识别部分且si包括相关联的敏感信息;将所述识别部分pi指定至划分空间S的分区Si;将所述相关联的敏感信息si加密为e(si);并且将所述经加密的相关联敏感信息e(si)存储在与所述所指定分区Si相关联的列表之中。2.根据权利要求1所述的方法,进一步包括使用排列函数和散列表中的一个或多个而将与所述分区Si相关联的所述列表映射至存储位置的步骤。3.根据权利要求1所述的方法,进一步包括步骤:获得对应于所述划分空间S中的分区S1,S2,…,St的多个中心点C1,C2,…,Ct;并且计算与pi最接近的中心Ci,其中所述列表与所述所计算的最接近的中心Ci相关联。4.根据权利要求1所述的方法,进一步包括在一个或多个预定义匿名性标准被满足的条件下输出给定列表的标识符以及来自该给定列表的被解密的敏感数据数值。5.根据权利要求1所述的方法,进一步包括以下一个或多个:向一个或多个列表增加虚拟条目;从一个或多个列表删除条目;和保留一个或多个列表中已经被输出的一个或多个条目。6.根据权利要求1所述的方法,其中所述数据元素(pi,si)作为集合的一部分而被存储至所述列表,其中所述集合的成员具有相同的经变换的识别部分。7.一种系统,包括:存储器;和耦合至该存储器的至少一个硬件设备,其进行操作以:接收数据流的数据元素(pi,si),其中pi包括识别部分且si包括相关联的敏感信息;将所述识别部分pi指定至划分空间S的分区Si;将所述相关联的敏感信息si加密为e(si);并且将所述经加密的相关联敏感信息e(si)存储在与所述所指定分区Si相关联的列表之中。8.根据权利要求7所述的系统,其中所述至少一个硬件设备进一步被配置为使用排列函数和散列表中的...

【专利技术属性】
技术研发人员:V·Y·科列斯尼科夫G·T·威尔方
申请(专利权)人:阿尔卡特朗讯公司
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1