一种增量发布流式生物数据的隐私保护方法技术

技术编号:15203755 阅读:149 留言:0更新日期:2017-04-22 22:46
本发明专利技术公开了一种增量发布流式生物数据的隐私保护算法,涉及匿名隐私保护技术领域。本发明专利技术是基于k‑匿名模型,取出流式生物数据中最早到达的元组s插入到临时存储元组的集合Setw中,等待发布,再判断Setw中等待时间最长的元组与时延约束δ的关系从而采取相应对策。该算法利用时延约束的思想,有效地控制了流式生物数据增量匿名发布时的信息损失。实验表明:该算法能够有效地匿名化流式生物数据,同时,保证了发布的生物数据具有较高可用性。本算法在处理流式生物数据具有显著优势。

A privacy preserving algorithm for incremental release of biological data

The invention discloses a privacy protection algorithm for incremental release stream biological data. The invention is based on the model of K anonymous, remove the tuple s earliest arrival flow in biological data into the temporary storage of a set of tuples in the Setw, waiting for release, then judge the relationship tuple and delay constraints in Setw Delta for the longest time in order to take corresponding countermeasures. In this algorithm, the idea of time delay constraint is used to effectively control the information loss in the incremental anonymous publication of stream biological data. The experimental results show that the proposed algorithm can efficiently and effectively reduce the flow of biological data. This algorithm has a significant advantage in dealing with flow biological data.

【技术实现步骤摘要】

本专利技术涉及数据发布中的匿名隐私保护
,具体是一种增量发布流式生物数据的隐私保护算法。
技术介绍
随着DNA测序技术的发展,DNA测序成本迅速下降,“人类基因组计划”得以完成。在此之后,大量以基因数据为主体的生物数据仍然不间断地产生,而这些生物数据通过分享被广泛应用于医学研究和临床诊断。当不同来源的动态生物数据以数据流的形式到达收集方后,该数据会被及时更新到已发布的数据集中。然而,生物数据的发布具有潜在的隐私泄露问题,容易造成数据提供者身份被识别。这将会阻碍生物数据的分享,导致生物数据难以被提供于医学研究。因此,生物数据在发布时应避免提供者身份被识别,进行合理的隐私保护。目前,针对于生物数据隐私保护的方法主要为基于图2中的DNA泛化格的k-匿名算法——DNALA算法,该算法直接对基因组序列进行泛化操作,使发布的生物数据表满足2-匿名。在DNALA中,Malin已经证明了如果k>2,则匿名后的基因组数据容易造成过度泛化,使发布的数据集具有较低的效用。为保留数据的可用性,DNALA算法尽可能保证序列聚合成两两一组的簇,然后对每个簇进行泛化,使每个簇中基因组具有相同的碱基序列。由于DNALA算法在处理数据时形成少量的包含三个元组的簇,故DNALA保证了满足2-匿名的同时保留了数据的可用性。但是,DNALA算法是一种处理静态生物数据的算法,该算法处理动态数据的增量发布需要花费大量的时间,无法使新到达的生物数据及时发布。基于此,Li提出了Hybrid算法,该算法可以及时匿名并发布流式生物数据,但是Hybrid算法往往会形成大量包含三个基因组的簇,导致发布的数据集可用性较低。
技术实现思路
为了克服上述现有技术的缺点,本专利技术提供一种增量发布流式生物数据的隐私保护算法,大幅度提升发布的DNA数据集的实用性,使其具有较高的挖掘价值。本发是以如下技术方案实现的:一种增量发布流式生物数据的隐私保护算法,输入:流式生物数据集S;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD(AverageDistance);已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇中;输出:更新后的匿名表A';具体步骤如下:1)首先,设有空集合Setw用来存放等待发布的数据;2)当数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;3)若空集合Setw中元组个数不大于δ,则执行步骤4);若Setw中元组个数大于δ,则执行步骤6);4)找到空集合Setw内距元组s最近的序列r,计算出r和s的距离dist(r,s);5)如果,dist(r,s)小于已发布数据集A的平均距离AD时,从空集合Setw取出元组r和s形成的簇放入已发布数据集A中,并泛化r和s,然后执行步骤7);否则,直接执行步骤7);6)获取空集合Setw中ts最小的元组a,找到数据集A中距离a最近的序列b,将a添加到含b的元组簇ni中;针对新形成的元组簇ni所含元素个数的不同,采取相应处理方式:若此时的ni中元组个数为3时,则泛化ni;若ni中元组个数为4,则把ni划分为元素个数相等的g和h两个簇,并确保两个分组的内部元素距离之和最小,然后泛化g和h;7)跳转到步骤2),直到流式生物数据集S为空;8)得到更新后的匿名表A'。本专利技术的有益效果是:能够对生物数据有效的隐私保护,克服现存Hybrid算法匿名流式生物数据容易造成过度泛化的缺陷,发布更加精确的数据集,大幅度提高发布生物数据集的可用性。附图说明图1是本专利技术流程框图;图2为DNALA算法下的DNA泛化格示意图;图3为多序列比对机制(MSA)和两两序列比对机制(PSA)示意图;图4为Hybrid算法下新到达的生物数据更新到已发布数据集中的示例图;图5为NSPSGD算法下新到达的生物数据更新到已发布数据集中的示例图;图6a为数据集I,δ=40时NSPSGD算法与Hybrid算法匿名效果的对比;图6b为数据集II,δ=40时NSPSGD算法与Hybrid算法匿名效果的对比;图6c为数据集III,δ=80时NSPSGD算法与Hybrid算法匿名效果的对比;图7a为数据集I,平均距离与时延δ及发布数据量之间的函数关系;图7b为数据集II,平均距离与时延δ及发布数据量之间的函数关系;图7c为数据集III,平均距离与时延δ及发布数据量之间的函数关系。具体实施方式本专利技术主要提出了一种增量发布流式生物数据的隐私保护算法,以下为本专利技术使用到的k-匿名概念以及流式基因组数据的概念。定义1k-匿名模型:发布的数据集中每条记录至少具有k-1不可区分记录,则发布的数据集满足k-匿名。根据这一原则,k-匿名模型确保重新确定一个人在公布的数据集的概率不超过1/k。具体参考表1处理结果。表1为原数据集及其k-匿名的转换示意图。其中年龄和性别的属性已被泛化,并且表中最后一个条目被抑制。从表中可以看出,变换后的数据集满足2-匿名。表1定义2流式基因组数据的k-匿名:假设S为一个具有属性AS=(pid,DNAsequence,ts)的流式基因组数据集,其中pid标志个人序列号、DNA为基因序列,ts为S中元组的到达时间。假设S'为S匿名后的数据,则S'中不包含pid、ts属性。若S'满足k-匿名,则需满足一下条件:(1)对于t'由t泛化而得,(2)对于|EQ(t')|≥k,所有EQ(t')中的元组和t'相同,并且|EQ(t')|代表|EQ(t')|的数目,那么我们将S'命名为一个满足k-匿名的流式基因数据集。例如表2所示,表格中左边的数据集为原始流式基因数据,右边的数据则是匿名后满足2-匿名的数据集。其中pid为3201和3202的元组为一个EQ(t'),此时|EQ(t')|=2。表2定义3延迟约束δ:设P是一个动态基因组数据集的匿名计划,如果由P输出的满足k-匿名的数据集S'满足:t'.ts-t.ts<δ。其中,t是S中与t'相对应的元组,δ为一个给定的实数且δ>0。那么,我们称P满足时延约束δ。针对现存的DNALA算法和Hybrid算法处理动态基因数据的缺陷,我们提出了一种改进的k-匿名算法。首先,DNALA是一种静态基因组数据,其处理动态序列花费时间较长。其次,在DNALA中,已证明对包含三个元组的聚簇进行泛化时容易造成过度泛化,降低数据的可用性,而Hybrid算法在处理动态生物数据时会形成大量包含三元组的簇,造成数据集的过度泛化。为解决这一问题,本专利技术中的算法尽可能地使得元组两两聚合成簇并进行泛化,使匿名后的数据表在满足k=2的同时,聚合更多的包含两元组的簇。如图1所示,基于以上所说,一种增量发布流式生物数据的隐私保护算法(NSPSGD算法),输入:流式生物数据集S;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD(AverageDistance);已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610876548.html" title="一种增量发布流式生物数据的隐私保护方法原文来自X技术">增量发布流式生物数据的隐私保护方法</a>

【技术保护点】
一种增量发布流式生物数据的隐私保护算法,其特征在于:输入:流式生物数据集S;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD;已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇中;输出:更新后的匿名表A';具体步骤如下:1)首先,设有空集合Setw用来存放等待发布的数据;2)当数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;3)若空集合Setw中元组个数不大于δ,则执行步骤4);若Setw中元组个数大于δ,则执行步骤6);4)找到空集合Setw内距元组s最近的序列r,计算出r和s的距离dist(r,s);5)如果,dist(r,s)小于已发布数据集A的平均距离AD时,从空集合Setw取出元组r和s形成的簇放入已发布数据集A中,并泛化r和s,然后执行步骤7);否则,直接执行步骤7);6)获取空集合Setw中ts最小的元组a,找到数据集A中距离a最近的序列b,将a添加到含b的元组簇ni中;针对新形成的元组簇ni所含元素个数的不同,采取相应处理方式:若此时的ni中元组个数为3时,则泛化ni;若ni中元组个数为4,则把ni划分为元素个数相等的g和h两个簇,并确保两个分组的内部元素距离之和最小,然后泛化g和h;7)跳转到步骤2),直到流式生物数据集S为空;8)得到更新后的匿名表A'。...

【技术特征摘要】
1.一种增量发布流式生物数据的隐私保护算法,其特征在于:输入:流式生物数据集S;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD;已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇中;输出:更新后的匿名表A';具体步骤如下:1)首先,设有空集合Setw用来存放等待发布的数据;2)当数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;3)若空集合Setw中元组个数不大于δ,则执行步骤4);若Setw中元组个数大于δ,则执行步骤6);4)找到空集合S...

【专利技术属性】
技术研发人员:吴响俞啸魏裕阳林童王换换
申请(专利权)人:徐州医科大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1