基于随机采样及模体压缩的差分隐私DNA模体识别的方法技术

技术编号：19178184 阅读：36 留言：0更新日期：2018-10-17 00:31

本发明专利技术公开了一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法，涉及生物信息隐私保护技术领域。本方法首先针对DNA模体识别实验时间一般需要长达数十小时的特点，对原始数据进行“等概率”的随机采样，减小实验数据量，大幅度缩短实验运行时间；然后利用数据长度压缩方法对样本数据进行压缩，以此来减小使用差分隐私Laplace机制加噪时全局敏感度，从而减少满足差分隐私所需要添加的噪声量，在保证模体识别过程隐私安全的同时，提高模体识别的准确性；最后，根据样本与原始数据的差异，使用“双重标准”法对支持度阈值进行修正，减少随机采样引起的模体识别误差，提高采样方法的普适性。

Differential privacy DNA motifs recognition method based on random sampling and module compression

The invention discloses a differential privacy DNA motif recognition method based on random sampling and motif compression, and relates to the technical field of bioinformatics privacy protection. In this method, firstly, according to the characteristics that the experiment time of DNA motif recognition usually takes as long as tens of hours, the original data is randomly sampled with \equal probability\, which reduces the amount of experimental data and greatly shortens the running time of the experiment. Then the data length compression method is used to compress the sample data in order to reduce the difference used. Privacy Laplace reduces the amount of noise needed to satisfy the differential privacy and improves the accuracy of the model recognition while ensuring the privacy security of the model recognition process. Reduce the error caused by random sampling and improve the universality of the sampling method.

全部详细技术资料下载

【技术实现步骤摘要】
基于随机采样及模体压缩的差分隐私DNA模体识别的方法
本专利技术涉及生物信息隐私保护
，具体是一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法。
技术介绍
DNA模体识别旨在识别具有调控基因表达的转录因子，是生物信息学一个热点研究领域，并已经拥有大量成熟有效的方法。但是，近期的研究证明，基因所蕴含大量的隐私信息在其被研究挖掘过程中极其容易被泄露，如遗传疾病、潜在致病因子。其中，Homer证明通过对多组DNA数据的关联分析可以确定改组数据中每个个体的身份。而，Gymrek更是利用实验从1000个基因组数据中确定了50个DNA数据贡献者的个人信息。由此可知，DNA数据在其被研究的过程中是不安全的。这一现象引发了国内外学者的广泛热议，均认为需要对DNA研究过程进行隐私保护。然而，由于现存DNA数据库数据体量庞大、DNA蕴含信息复杂的特点，研究者还未完全确定DNA数据在研究过程中会以那些方式、那些背景知识会出现在攻击中。因此，现有DNA数据的隐私保护多是使用无需考虑背景攻击、泄露风险小的差分隐私保护模型。在DNA模体识别领域，现有的差分隐私DNA模体识别方法添加噪声量过大、识别准确率低且运行时间长，无法达到有效的隐私保护效果。
技术实现思路
为了克服上述问题，本专利技术提供一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法，有效地防止DNA模体识别的隐私泄露，幅度提高了识别的准确性和运行时间。本专利技术是以如下技术方案实现的：一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法，其特征在于：1)首先对原始数据进行随机采样，获得样本数据集合；2)...

【技术保护点】
1.一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法，其特征在于：1)首先对原始数据进行随机采样，获得样本数据集合；2)设置所求频繁模体集合长度上限lL、下限lU的值，令l等于lL，并求出其支持度，利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合；3)对候选模体集合执行样本数据长度压缩获取压缩后的样本；4)在压缩后的样本中计算候选模体支持度；5)对步骤4)的候选模体支持度执行Laplace加噪，获取候选模体集合的加噪支持度，利用最大支持度修正阈值，此时的加噪支持度与修正后的阈值比较，获取潜在频繁模体集合；6)对步骤4)的候选模体支持度执行Laplace加噪，获取候选模体集合的加噪支持度，利用平均支持度修正阈值，此时的加噪支持度与修正后的阈值比较，获取频繁l模体集合；7)增加l的值，在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合，并再次执行步骤3)、4)、5)、6)，直到l等于lU为止，获得长度为lL到lU之间的频繁模体集合；8)对频繁模体集合执行联合支持度计算；9)选取最频繁的N项DNA模体，即TopN频繁DNA模体。

【技术特征摘要】
1.一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法，其特征在于：1)首先对原始数据进行随机采样，获得样本数据集合；2)设置所求频繁模体集合长度上限lL、下限lU的值，令l等于lL，并求出其支持度，利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合；3)对候选模体集合执行样本数据长度压缩获取压缩后的样本；4)在压缩后的样本中计算候选模体支持度；5)对步骤4)的候选模体支持度执行Laplace加噪，获取候选模体集合的加噪支持度，利用最大支持度修正阈值，此时的加噪支持度与修正后的阈值比较，获取潜在频繁模体集合；6)对步骤4)的候选模体支持度执行Laplace加噪，获取候选模体集合的加噪支持度，利用平均支持度修正阈值，此时的加噪支持度与修正后的阈值比较，获取频繁l模体集合；7)增加l的值，在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合，并再次执行步骤3)、4)、5)、6)，直到l等于lU为止，获得长度为lL到lU之间的频繁模体集合；8)对频繁模体集合执行联合支持度计算；9)选取最频繁的N项DNA模体，即TopN频繁DNA模体。2.根据权利要求1所述的基于随机采样及模体压缩的差分隐私DNA模体识别的方法...

【专利技术属性】
技术研发人员：吴响，关健，毋文敏，魏裕阳，
申请(专利权)人：徐州医科大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人