The invention discloses a privacy protection algorithm for incremental release stream biological data. The invention is based on the model of K anonymous, remove the tuple s earliest arrival flow in biological data into the temporary storage of a set of tuples in the Setw, waiting for release, then judge the relationship tuple and delay constraints in Setw Delta for the longest time in order to take corresponding countermeasures. In this algorithm, the idea of time delay constraint is used to effectively control the information loss in the incremental anonymous publication of stream biological data. The experimental results show that the proposed algorithm can efficiently and effectively reduce the flow of biological data. This algorithm has a significant advantage in dealing with flow biological data.
【技术实现步骤摘要】
本专利技术涉及数据发布中的匿名隐私保护
,具体是一种增量发布流式生物数据的隐私保护算法。
技术介绍
随着DNA测序技术的发展,DNA测序成本迅速下降,“人类基因组计划”得以完成。在此之后,大量以基因数据为主体的生物数据仍然不间断地产生,而这些生物数据通过分享被广泛应用于医学研究和临床诊断。当不同来源的动态生物数据以数据流的形式到达收集方后,该数据会被及时更新到已发布的数据集中。然而,生物数据的发布具有潜在的隐私泄露问题,容易造成数据提供者身份被识别。这将会阻碍生物数据的分享,导致生物数据难以被提供于医学研究。因此,生物数据在发布时应避免提供者身份被识别,进行合理的隐私保护。目前,针对于生物数据隐私保护的方法主要为基于图2中的DNA泛化格的k-匿名算法——DNALA算法,该算法直接对基因组序列进行泛化操作,使发布的生物数据表满足2-匿名。在DNALA中,Malin已经证明了如果k>2,则匿名后的基因组数据容易造成过度泛化,使发布的数据集具有较低的效用。为保留数据的可用性,DNALA算法尽可能保证序列聚合成两两一组的簇,然后对每个簇进行泛化,使每个簇中基因组具有相同的碱基序列。由于DNALA算法在处理数据时形成少量的包含三个元组的簇,故DNALA保证了满足2-匿名的同时保留了数据的可用性。但是,DNALA算法是一种处理静态生物数据的算法,该算法处理动态数据的增量发布需要花费大量的时间,无法使新到达的生物数据及时发布。基于此,Li提出了Hybrid算法,该算法可以及时匿名并发布流式生物数据,但是Hybrid算法往往会形成大量包含三个基因组的簇,导致 ...
【技术保护点】
一种增量发布流式生物数据的隐私保护算法,其特征在于:输入:流式生物数据集S;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD;已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇中;输出:更新后的匿名表A';具体步骤如下:1)首先,设有空集合Setw用来存放等待发布的数据;2)当数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;3)若空集合Setw中元组个数不大于δ,则执行步骤4);若Setw中元组个数大于δ,则执行步骤6);4)找到空集合Setw内距元组s最近的序列r,计算出r和s的距离dist(r,s);5)如果,dist(r,s)小于已发布数据集A的平均距离AD时,从空集合Setw取出元组r和s形成的簇放入已发布数据集A中,并泛化r和s,然后执行步骤7);否则,直接执行步骤7);6)获取空集合Setw中ts最小的元组a,找到数据集A中距离a最近的序列b,将a添加到含b的元组簇ni中;针 ...
【技术特征摘要】
1.一种增量发布流式生物数据的隐私保护算法,其特征在于:输入:流式生物数据集S;已发布数据集A;时延约束δ;已发布数据集A的平均距离AD;已发布数据集A的聚类结果m个簇(n1,n2,...,nm),其中,任意ni与nj不包含相同的元组,且任意一个元组簇ni中包含元组的数量为2或者3,已发布数据集A中的元组均存在于这m个簇中;输出:更新后的匿名表A';具体步骤如下:1)首先,设有空集合Setw用来存放等待发布的数据;2)当数据集S非空时,取出流式生物数据集S中ts值最小的元组s,将其插入到Setw中,ts为元组达到收集方的时间;3)若空集合Setw中元组个数不大于δ,则执行步骤4);若Setw中元组个数大于δ,则执行步骤6);4)找到空集合S...
【专利技术属性】
技术研发人员:吴响,俞啸,魏裕阳,林童,王换换,
申请(专利权)人:徐州医科大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。