一种增量发布流式生物数据的隐私保护方法技术

技术编号：15203755 阅读：154 留言：0更新日期：2017-04-22 22:46

本发明专利技术公开了一种增量发布流式生物数据的隐私保护算法，涉及匿名隐私保护技术领域。本发明专利技术是基于k‑匿名模型，取出流式生物数据中最早到达的元组s插入到临时存储元组的集合Setw中，等待发布，再判断Setw中等待时间最长的元组与时延约束δ的关系从而采取相应对策。该算法利用时延约束的思想，有效地控制了流式生物数据增量匿名发布时的信息损失。实验表明：该算法能够有效地匿名化流式生物数据，同时，保证了发布的生物数据具有较高可用性。本算法在处理流式生物数据具有显著优势。

A privacy preserving algorithm for incremental release of biological data

The invention discloses a privacy protection algorithm for incremental release stream biological data. The invention is based on the model of K anonymous, remove the tuple s earliest arrival flow in biological data into the temporary storage of a set of tuples in the Setw, waiting for release, then judge the relationship tuple and delay constraints in Setw Delta for the longest time in order to take corresponding countermeasures. In this algorithm, the idea of time delay constraint is used to effectively control the information loss in the incremental anonymous publication of stream biological data. The experimental results show that the proposed algorithm can efficiently and effectively reduce the flow of biological data. This algorithm has a significant advantage in dealing with flow biological data.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据发布中的匿名隐私保护
，具体是一种增量发布流式生物数据的隐私保护算法。
技术介绍
随着DNA测序技术的发展，DNA测序成本迅速下降，“人类基因组计划”得以完成。在此之后，大量以基因数据为主体的生物数据仍然不间断地产生，而这些生物数据通过分享被广泛应用于医学研究和临床诊断。当不同来源的动态生物数据以数据流的形式到达收集方后，该数据会被及时更新到已发布的数据集中。然而，生物数据的发布具有潜在的隐私泄露问题，容易造成数据提供者身份被识别。这将会阻碍生物数据的分享，导致生物数据难以被提供于医学研究。因此，生物数据在发布时应避免提供者身份被识别，进行合理的隐私保护。目前，针对于生物数据隐私保护的方法主要为基于图2中的DNA泛化格的k-匿名算法——DNALA算法，该算法直接对基因组序列进行泛化操作，使发布的生物数据表满足2-匿名。在DNALA中，Malin已经证明了如果k>2，则匿名后的基因组数据容易造成过度泛化，使发布的数据集具有较低的效用。为保留数据的可用性，DNALA算法尽可能保证序列聚合成两两一组的簇，然后对每个簇进行泛化，使每个簇中基...
一种<a href="http://www.xjishu.com/zhuanli/55/201610876548.html" title="一种增量发布流式生物数据的隐私保护方法原文来自X技术">增量发布流式生物数据的隐私保护方法</a>

【技术保护点】
一种增量发布流式生物数据的隐私保护算法，其特征在于：输入：流式生物数据集S；已发布数据集A；时延约束δ；已发布数据集A的平均距离AD；已发布数据集A的聚类结果m个簇(n1,n2,...,nm)，其中，任意ni与nj不包含相同的元组，且任意一个元组簇ni中包含元组的数量为2或者3，已发布数据集A中的元组均存在于这m个簇中；输出：更新后的匿名表A'；具体步骤如下：1)首先，设有空集合Setw用来存放等待发布的数据；2)当数据集S非空时，取出流式生物数据集S中ts值最小的元组s，将其插入到Setw中，ts为元组达到收集方的时间；3)若空集合Setw中元组个数不大于δ，则执行步骤4)；若Setw中元组...

【技术特征摘要】
1.一种增量发布流式生物数据的隐私保护算法，其特征在于：输入：流式生物数据集S；已发布数据集A；时延约束δ；已发布数据集A的平均距离AD；已发布数据集A的聚类结果m个簇(n1,n2,...,nm)，其中，任意ni与nj不包含相同的元组，且任意一个元组簇ni中包含元组的数量为2或者3，已发布数据集A中的元组均存在于这m个簇中；输出：更新后的匿名表A'；具体步骤如下：1)首先，设有空集合Setw用来存放等待发布的数据；2)当数据集S非空时，取出流式生物数据集S中ts值最小的元组s，将其插入到Setw中，ts为元组达到收集方的时间；3)若空集合Setw中元组个数不大于δ，则执行步骤4)；若Setw中元组个数大于δ，则执行步骤6)；4)找到空集合S...

【专利技术属性】
技术研发人员：吴响，俞啸，魏裕阳，林童，王换换，
申请(专利权)人：徐州医科大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人