基于随机采样及模体压缩的差分隐私DNA模体识别的方法技术

技术编号:19178184 阅读:36 留言:0更新日期:2018-10-17 00:31
本发明专利技术公开了一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,涉及生物信息隐私保护技术领域。本方法首先针对DNA模体识别实验时间一般需要长达数十小时的特点,对原始数据进行“等概率”的随机采样,减小实验数据量,大幅度缩短实验运行时间;然后利用数据长度压缩方法对样本数据进行压缩,以此来减小使用差分隐私Laplace机制加噪时全局敏感度,从而减少满足差分隐私所需要添加的噪声量,在保证模体识别过程隐私安全的同时,提高模体识别的准确性;最后,根据样本与原始数据的差异,使用“双重标准”法对支持度阈值进行修正,减少随机采样引起的模体识别误差,提高采样方法的普适性。

Differential privacy DNA motifs recognition method based on random sampling and module compression

The invention discloses a differential privacy DNA motif recognition method based on random sampling and motif compression, and relates to the technical field of bioinformatics privacy protection. In this method, firstly, according to the characteristics that the experiment time of DNA motif recognition usually takes as long as tens of hours, the original data is randomly sampled with \equal probability\, which reduces the amount of experimental data and greatly shortens the running time of the experiment. Then the data length compression method is used to compress the sample data in order to reduce the difference used. Privacy Laplace reduces the amount of noise needed to satisfy the differential privacy and improves the accuracy of the model recognition while ensuring the privacy security of the model recognition process. Reduce the error caused by random sampling and improve the universality of the sampling method.

【技术实现步骤摘要】
基于随机采样及模体压缩的差分隐私DNA模体识别的方法
本专利技术涉及生物信息隐私保护
,具体是一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法。
技术介绍
DNA模体识别旨在识别具有调控基因表达的转录因子,是生物信息学一个热点研究领域,并已经拥有大量成熟有效的方法。但是,近期的研究证明,基因所蕴含大量的隐私信息在其被研究挖掘过程中极其容易被泄露,如遗传疾病、潜在致病因子。其中,Homer证明通过对多组DNA数据的关联分析可以确定改组数据中每个个体的身份。而,Gymrek更是利用实验从1000个基因组数据中确定了50个DNA数据贡献者的个人信息。由此可知,DNA数据在其被研究的过程中是不安全的。这一现象引发了国内外学者的广泛热议,均认为需要对DNA研究过程进行隐私保护。然而,由于现存DNA数据库数据体量庞大、DNA蕴含信息复杂的特点,研究者还未完全确定DNA数据在研究过程中会以那些方式、那些背景知识会出现在攻击中。因此,现有DNA数据的隐私保护多是使用无需考虑背景攻击、泄露风险小的差分隐私保护模型。在DNA模体识别领域,现有的差分隐私DNA模体识别方法添加噪声量过大、识别准确率低且运行时间长,无法达到有效的隐私保护效果。
技术实现思路
为了克服上述问题,本专利技术提供一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,有效地防止DNA模体识别的隐私泄露,幅度提高了识别的准确性和运行时间。本专利技术是以如下技术方案实现的:一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,其特征在于:1)首先对原始数据进行随机采样,获得样本数据集合;2)设置所求频繁模体集合长度上限lL、下限lU的值,令l等于lL,并求出其支持度,利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合;3)对候选模体集合执行样本数据长度压缩获取压缩后的样本;4)在压缩后的样本中计算候选模体支持度;5)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用最大支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取潜在频繁模体集合;6)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用平均支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取频繁l模体集合;7)增加l的值,在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合,并再次执行步骤3)、4)、5)、6),直到l等于lU为止,获得长度为lL到lU之间的频繁模体集合;8)对频繁模体集合执行联合支持度计算;9)选取最频繁的N项DNA模体,即TopN频繁DNA模体。优选的,步骤3)中样本数据长度压缩具体步骤如下:首先,利用不相关项删除原理,对样本中模体长度初步删减;其次,利用连续项压缩原理,压缩候选模体中连续出现的相同字符,减小样本数据的长度,获得压缩后的样本。优选的,Laplace加噪机制如下:添加服从Laplace((lmax-l+1)/ε1)分布的噪音。优选的,支持度阈值修正单元具体步骤如下:1)根据“双重标准”法,给定序列S的噪声支持度θ′,估算序列S在转换后数据集中的真实支持度θreal;2)根据序列在转换后数据集中真实支持度θreal,进一步估计序列在原始数据集的真实支持度θ。优选的,联合支持度计算具体步骤如下:1)从频繁模体中选择一个索引模体;2)使用汉明距离计算其余模体与该索引模体之间的汉明距离:如果汉明距离小于容错指数δ,则将其加噪支持度频率加入到该索引模体;如果汉明距离大于容错指数δ,则不进行任何操作,计算出该索引模体的最终近似加噪联合支持度频率。本专利技术的有益效果是:首先对原始数据进行随机抽样,获得数据量较少的样本数据,减少了模体识别过程中操作的数据量,节省了模体识别的运行时间;其次,利用不相关项删除与连续项压缩原理对样本数据进行压缩,有效地降低了数据的全局敏感度,减少Laplace加噪时的噪音添加量,在保证识别过程满足差分隐私的前提下,保障了识别结果的准确性;最后,采用双重标准进行支持度阈值修正,利用修正后的支持度阈值θ判断模体是否频繁,有效地避免了因采样引起的准确度误差,提高了识别结果的准确性。附图说明图1是本专利技术流程框架图;图2(a)在不同隐私预算ε下,本方法和已有算法处理Washington数据集的准确度对比图;图2(b)在不同隐私预算ε下,本方法和已有算法处理Upstream1000数据集的准确度对比图;图2(c)在不同隐私预算ε下,本方法和已有算法处理Upstream2000数据集的准确度对比图;图2(d)在不同隐私预算ε下,本方法和已有算法处理Washington数据集的ARE对比图;图2(e)在不同隐私预算ε下,本方法和已有算法处理Upstream1000数据集的ARE对比图;图2(f)在不同隐私预算ε下,本方法和已有算法处理Upstream2000数据集的ARE对比图;图3(a)在不同θ下,本方法和已有算法处理Washington数据集的准确度对比图;图3(b)在不同θ下,本方法和已有算法处理Upstream1000数据集的准确度对比图;图3(c)在不同θ下,本方法和已有算法处理Upstream2000数据集的准确度对比图;图3(d)在不同θ下,本方法和已有算法处理Washington数据集的ARE对比图;图3(e)在不同θ下,本方法和已有算法处理Upstream1000数据集的ARE对比图;图3(f)在不同θ下,本方法和已有算法处理Upstream2000数据集的ARE对比图;图4(a)在不同N下,本方法和已有算法处理Washington数据集的准确度对比图;图4(b)在不同N下,本方法和已有算法处理Upstream1000数据集的准确度对比图;图4(c)在不同N下,本方法和已有算法处理Upstream2000数据集的准确度对比图;图4(d)在不同N下,本方法和已有算法处理Washington数据集的ARE对比图;图4(e)在不同N下,本方法和已有算法处理Upstream1000数据集的ARE对比图;图4(f)在不同N下,本方法和已有算法处理Upstream2000数据集的ARE对比图;图5(a)在不同lU下,本方法和已有算法处理Washington数据集的准确度对比图;图5(b)在不同lU下,本方法和已有算法处理Upstream1000数据集的准确度对比图;图5(c)在不同lU下,本方法和已有算法处理Upstream2000数据集的准确度对比图;图5(d)在不同lU下,本方法和已有算法处理Washington数据集的ARE对比图;图5(e)在不同lU下,本方法和已有算法处理Upstream1000数据集的ARE对比图;图5(f)在不同lU下,本方法和已有算法处理Upstream2000数据集的ARE对比图;图6(a)在不同数据量下,本方法和已有算法处理Washington算法的准确度对比图;图6(b)在不同数据量下,本方法和已有算法处理Washington数据集的ARE对比图;图6(c)在不同数据量下,本方法和已有算法处理Washington算法的运行时间对比图;图6(d)在不同数据量下,本方法和已有算法处理Upstre本文档来自技高网...

【技术保护点】
1.一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,其特征在于:1)首先对原始数据进行随机采样,获得样本数据集合;2)设置所求频繁模体集合长度上限lL、下限lU的值,令l等于lL,并求出其支持度,利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合;3)对候选模体集合执行样本数据长度压缩获取压缩后的样本;4)在压缩后的样本中计算候选模体支持度;5)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用最大支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取潜在频繁模体集合;6)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用平均支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取频繁l模体集合;7)增加l的值,在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合,并再次执行步骤3)、4)、5)、6),直到l等于lU为止,获得长度为lL到lU之间的频繁模体集合;8)对频繁模体集合执行联合支持度计算;9)选取最频繁的N项DNA模体,即TopN频繁DNA模体。

【技术特征摘要】
1.一种基于随机采样及模体压缩的差分隐私DNA模体识别的方法,其特征在于:1)首先对原始数据进行随机采样,获得样本数据集合;2)设置所求频繁模体集合长度上限lL、下限lU的值,令l等于lL,并求出其支持度,利用字符表{A、G、C、T}形成所有的长度为l的候选模体集合;3)对候选模体集合执行样本数据长度压缩获取压缩后的样本;4)在压缩后的样本中计算候选模体支持度;5)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用最大支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取潜在频繁模体集合;6)对步骤4)的候选模体支持度执行Laplace加噪,获取候选模体集合的加噪支持度,利用平均支持度修正阈值,此时的加噪支持度与修正后的阈值比较,获取频繁l模体集合;7)增加l的值,在步骤5)获取的潜在频繁模体集合的基础上利用向下封闭性质获取长度为l+1的候选模体集合,并再次执行步骤3)、4)、5)、6),直到l等于lU为止,获得长度为lL到lU之间的频繁模体集合;8)对频繁模体集合执行联合支持度计算;9)选取最频繁的N项DNA模体,即TopN频繁DNA模体。2.根据权利要求1所述的基于随机采样及模体压缩的差分隐私DNA模体识别的方法...

【专利技术属性】
技术研发人员:吴响关健毋文敏魏裕阳
申请(专利权)人:徐州医科大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1