The invention discloses a differential privacy DNA motif recognition method based on random sampling and motif compression, and relates to the technical field of bioinformatics privacy protection. In this method, firstly, according to the characteristics that the experiment time of DNA motif recognition usually takes as long as tens of hours, the original data is randomly sampled with \equal probability\, which reduces the amount of experimental data and greatly shortens the running time of the experiment. Then the data length compression method is used to compress the sample data in order to reduce the difference used. Privacy Laplace reduces the amount of noise needed to satisfy the differential privacy and improves the accuracy of the model recognition while ensuring the privacy security of the model recognition process. Reduce the error caused by random sampling and improve the universality of the sampling method.
【技术实现步骤摘要】
基于随机采样及模体压缩的差分隐私DNA模体识别的方法
本专利技术涉及生物信息隐私保护
,具体是一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法。
技术介绍
DNA模体识别旨在识别具有调控基因表达的转录因子,是生物信息学一个热点研究领域,并已经拥有大量成熟有效的方法。但是,近期的研究证明,基因所蕴含大量的隐私信息在其被研究挖掘过程中极其容易被泄露,如遗传疾病、潜在致病因子。其中,Homer证明通过对多组DNA数据的关联分析可以确定改组数据中每个个体的身份。而,Gymrek更是利用实验从1000个基因组数据中确定了50个DNA数据贡献者的个人信息。由此可知,DNA数据在其被研究的过程中是不安全的。这一现象引发了国内外学者的广泛热议,均认为需要对DNA研究过程进行隐私保护。然而,由于现存DNA数据库数据体量庞大、DNA蕴含信息复杂的特点,研究者还未完全确定DNA数据在研究过程中会以那些方式、那些背景知识会出现在攻击中。因此,现有DNA数据的隐私保护多是使用无需考虑背景攻击、泄露风险小的差分隐私保护模型。在DNA模体识别领域,现有的差分隐私DNA模体识别方法添加噪声量过大、识别准确率低且运行时间长,无法达到有效的隐私保护效果。
技术实现思路
为了克服上述问题,本专利技术提供一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,有效地防止DNA模体识别的隐私泄露,幅度提高了识别的准确性和运行时间。本专利技术是以如下技术方案实现的:一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,其特征在于:1)首先对原始数据进行随机采样,获得样本数据集合;2) ...
【技术保护点】
1.一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,其特征在于:1)首先对原始数据进行随机采样,获得样本数据集合;2)设置所求频繁模体集合长度上限lL、下限lU的值,令l等于lL,并求出其支持度,利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合;3)对候选模体集合执行样本数据长度压缩获取压缩后的样本;4)在压缩后的样本中计算候选模体支持度;5)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用最大支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取潜在频繁模体集合;6)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用平均支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取频繁l模体集合;7)增加l的值,在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合,并再次执行步骤3)、4)、5)、6),直到l等于lU为止,获得长度为lL到lU之间的频繁模体集合;8)对频繁模体集合执行联合支持度计算;9)选取最频繁的N项DNA模体,即TopN频繁DNA模体。
【技术特征摘要】
1.一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,其特征在于:1)首先对原始数据进行随机采样,获得样本数据集合;2)设置所求频繁模体集合长度上限lL、下限lU的值,令l等于lL,并求出其支持度,利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合;3)对候选模体集合执行样本数据长度压缩获取压缩后的样本;4)在压缩后的样本中计算候选模体支持度;5)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用最大支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取潜在频繁模体集合;6)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用平均支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取频繁l模体集合;7)增加l的值,在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合,并再次执行步骤3)、4)、5)、6),直到l等于lU为止,获得长度为lL到lU之间的频繁模体集合;8)对频繁模体集合执行联合支持度计算;9)选取最频繁的N项DNA模体,即TopN频繁DNA模体。2.根据权利要求1所述的基于随机采样及模体压缩的差分隐私DNA模体识别的方法...
【专利技术属性】
技术研发人员:吴响,关健,毋文敏,魏裕阳,
申请(专利权)人:徐州医科大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。