一种基于深度学习的DNA模体长度预测方法及预测系统技术方案

技术编号:26344892 阅读:27 留言:0更新日期:2020-11-13 21:03
本发明专利技术属于DNA序列片断检测技术领域,公开了一种基于深度学习的DNA模体长度预测方法及预测系统,构建预测模体长度的机器学习模型,在包含模体的延伸矩阵中自动地学习模体的特征,进而可以智能地预测未知模体的长度。使用机器学习解决这一问题的条件已经具足。本发明专利技术利用已有数据可以构建充足的预测模体长度的训练样本。深度学习等机器学习模型近些年得到了快速的发展,并成功地应用于包含生物信息学在内的多种领域,利用深度学习可以更好地学习延伸矩阵中的模体特征并进行模体长度预测。本发明专利技术提出的模型在测试集上的预测准确率达到了90%以上,并且能够成功地优化现有模体发现算法找出的模体。

【技术实现步骤摘要】
一种基于深度学习的DNA模体长度预测方法及预测系统
本专利技术属于DNA序列片断检测
,尤其涉及一种基于深度学习的DNA模体长度预测方法及预测系统。
技术介绍
目前,DNA非编码区域中存在着转录因子结合位点(TranscriptionFactorBindingSite,TFBS)等影响基因表达的序列片断。一个转录因子可以结合于DNA序列中的多个位点,这些TFBS往往是一组彼此间相似的序列片断,将它们抽象形成的一个序列模式称为模体。模体发现是通过计算手段在给定的DNA序列数据集中找出未知的模体,对研究基因表达调控起着至关重要的作用。DNA模体通常由位置权值矩阵(PositionWeightMatrix,PWM)来表示。PWM是一个4行l列的矩阵,l是模体的长度,矩阵中的每个元素表示了对应字符在TFBS的对应位置中的出现频率。模体长度作为模体的一个属性,它的值在模体发现时也是事先未知的。模体长度直接影响模体的质量。如果预测的模体长度与实际长度偏差较大,那么一方面会导致不能得到完整的模体信息,另一方面会导致找出假模体位点的概率增大。目前已经涌现了大量的模体发现算法,但是如何有效地确定模体长度仍是一个尚待解决的问题。当前主要有三种确定模体长度的方法。第一种方法是在模体发现前由用户指定模体长度或者使用一个默认的模体长度,然后在模体发现时只寻找这种长度的模体。由于方法简单,并且在某些情况下用户可能拥有模体长度的先验信息,大多数模体发现算法都支持这种模式。但是,这种方法的缺点是显而易见的。在现实中要挖掘的模体的长度一般是未知的,那么指定长度的做法等价于猜测,从而无法保证找出的模体的质量。第二种方法是在模体发现时通过某种策略得到一个大于模体实际长度且包含模体的延伸矩阵。因为属于模体的列的相对熵一般高于属于背景的列的相对熵,这种方法在延伸矩阵中截取相对熵高的片断,并将此片断的长度作为模体长度。例如,CisFinder和MCES等模体发现算法首先挖掘DNA序列数据集中的高频字串,它们可能是模体位点的片断,然后通过比对高频子串得到一个延伸矩阵,最后通过截取相对熵高的片断来得到模体。PairMotifChIP算法也采用了这种确定模体长度的方法,与CisFinder和MCES的不同点是,它通过挖掘高相似度的子串对来得到延伸矩阵。这种确定模体长度的方法一般是使用一个相对熵阈值来截取高相对熵片断。但是,如何设置合适的阈值是一个难题。主要原因是,不同模体的保守程度一般不同,使得相对熵的阈值也可能不同,从而并不存在一个适用于所有模体的相对熵阈值。第三种方法是在模体发现时对每种可能的模体长度分别找到一个模体,然后通过统计显著性评价等方式对不同长度的模体进行比较来确定出最终的模体长度。例如,业界公认的MEME-ChIP算法一般让用户指定要查找的最小模体长度lmin和最大模体长度lmax,然后MEME-ChIP对于lmin和lmax区间的每种模体长度分别执行模体发现,最后通过E-value对找出的不同长度的模体进行比较,并输出得分最好的模体。根据经验,人们知道模体的长度一般为8~21。采用这种确定模体长度方法的模体发现算法有着明显的缺陷。虽然这类算法把所有长度都遍历了一遍,并取得了统计显著性最高的模体的长度值,但是此类方法消耗时间太长,而且统计显著性最高的模体不一定对应于真实的模体。通过上述分析,现有技术存在的问题及缺陷为:(1)模体发现有助于找出DNA序列中具有生物意义的序列片断,对研究基因表达调控起着至关重要的作用。模体长度作为模体的一个重要属性,它直接影响模体的质量。如果预测的模体长度与实际长度偏差较大,那么将导致不能得到完整的模体信息,同时也会导致找出假模体位点的概率增大。目前已经涌现了大量的模体发现算法,但是如何有效地确定模体长度仍是一个尚待解决的问题。(2)现有确定模体长度的方法存在着难以确定阈值、耗时太长、适用性不强和不够精准等缺点。如果模体长度偏差较大,那么将直接影响找出的模体及其位点的质量,从而进一步影响基因表达调控的研究。解决以上问题及缺陷的难度为:传统的确定模体长度的方法存在着固有的缺陷,比如难以确定阈值、耗时太长、适用性不强和不够精准等,直接对这些传统的方法进行改进难以克服这些缺陷。使用深度学习等机器学习方法有望解决这一问题。首先,机器学习需要大量特征良好的样本,如何利用已有的真实模体及其对应的序列数据集来构建识别模体长度的样本是一个难点。同时,构建合适的深度学习模型也是一个难点。在此之前,没有研究者使用深度学习技术去确定模体长度,所以模型的选择、参数调优和建模等都是尚待解决的。解决以上问题及缺陷的意义为:鉴于现有方法存在的问题,本专利技术构建预测模体长度的机器学习模型,在包含模体的延伸矩阵中自动地学习模体的特征,进而可以智能地预测未知模体的长度。使用机器学习解决这一问题的条件已经具足。目前JASPAR等数据库中存储了大量可公开访问的模体,ENCODE等数据库中存储了大量可公开访问的特定模体的DNA序列数据集,利用这些数据可以构建充足的预测模体长度的训练样本。深度学习等机器学习模型近些年得到了快速的发展,并成功地应用于包含生物信息学在内的多种领域,利用深度学习可以更好地学习延伸矩阵中的模体特征并进行模体长度预测。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于深度学习的DNA模体长度预测方法及预测系统。本专利技术是这样实现的,一种基于深度学习的DNA模体长度预测方法,包括:首先,提出了构建预测模体长度的样本数据的方法。其次,提出了基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的预测模体长度的深度学习模型。然后,给出了对提出的预测模型进行应用的方法。进一步包括:构建样本数据:在模体数据库中获取一个真实模体的PWM,使用PWM检测工具定位这个模体在DNA序列中的位点,对位点进行延伸,由对齐的延伸位点计算延伸矩阵Me。由Me计算相对熵向量V,将V作为样本并把这个模体的长度l作为标签;构建基于卷积神经网络的预测模体长度的深度学习模型;预测模型的应用:用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵Me和一个相对熵向量V,把V作为深度学习预测模型的输入;根据预测模型得出模体长度l得到优化的模体。进一步,构建样本数据的方法进一步包括:在JASPAR数据库中共获取人类转录因子结合位点的PWM,并在ENCODE数据库获取对应的ChIP-seq数据集;截取真实模体PWM中相对熵高且长度较大的片段构建样本;给定一个真实模体的长度l,范围是8~21,通过公式设定截取长度k;筛选一部分模体片断的出现位点构建样本;使用PWM检测工具Moods定位整个模体或模体片断在DNA序列数据集D中的出现位点;P表示整个模体的出现位点集合;令P-表示模体片断的出现位点集合;令P+表示从P-中筛选出的模体位点集合;对P-中的位点根据Moods-Sco本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的DNA模体长度预测方法,其特征在于,所述基于深度学习的DNA模体长度预测方法包括:/n构建样本数据:在模体数据库中获取一个真实模体的PWM,使用PWM检测工具定位这个模体在DNA序列中的位点,对位点进行延伸,由对齐的延伸位点根据公式计算延伸矩阵M

【技术特征摘要】
1.一种基于深度学习的DNA模体长度预测方法,其特征在于,所述基于深度学习的DNA模体长度预测方法包括:
构建样本数据:在模体数据库中获取一个真实模体的PWM,使用PWM检测工具定位这个模体在DNA序列中的位点,对位点进行延伸,由对齐的延伸位点根据公式计算延伸矩阵Me,由Me根据公式计算相对熵向量V,将V作为样本并把这个模体的长度l作为标签;
构建基于卷积神经网络的预测模体长度的深度学习模型;
预测模型的应用:用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵Me和一个相对熵向量V,把V作为预测模型的输入;根据预测模型得出模体长度l得到优化的模体。


2.如权利要求1所述的基于深度学习的DNA模体长度预测方法,其特征在于,计算延伸矩阵Me公式为:



计算相对熵向量V公式为:





3.如权利要求1所述的基于深度学习的DNA模体长度预测方法,其特征在于,构建样本数据的方法进一步包括:
在JASPAR数据库中共获取人类转录因子结合位点的PWM,并在ENCODE数据库获取对应的ChIP-seq数据集;
截取真实模体PWM中相对熵高且长度较大的片段构建样本;给定一个真实模体的长度l,范围是8~21,通过公式设定截取长度k;



筛选一部分模体片断的出现位点构建样本;使用PWM检测工具Moods定位整个模体或模体片断在DNA序列数据集D中的出现位点;P表示整个模体的出现位点集合;令P-表示模体片断的出现位点集合;令P+表示从P-中筛选出的模体位点集合;
对P-中的位点根据Moods-Score从高到低进行排序,选取排名靠前的部分位点形成P+,横坐标表示P+中位点个数与P-中位点个数的比值,纵坐标表示P+中含有的真实模体位点的比例;
随着P+中位点个数的减少,P+中位点是真实模体位点的概率会变大;选取P-中得分排名靠前的小部分位点形成P+,同时保证P+中保留足够多的位点,呈现模体PWM中各个字符的分布;用公式计算要筛选的模体片断出现位点的个数|P+|;
|P+|=|P-|×10%;
对于每个可能的startPos取值通过在模体片段左边和右边分别延伸startPos–1个和L–startPos–k+1个位置构建一个样本,其中k是模体片断的长度;
startPos∈[cutPos,L-l+cutPos];
对于某些模体Mpwm生成模拟的ChIP-seq数据集Dsim,首先将Dsim初始化为t条背景序列组成的集合;然后,在Dsim中随机选取20%的序列;对于每条选出的序列s,在s的随机位置上植入模体Mpwm的一个随机实例m;m是一个与Mpwm等长的字符串,m的第j(1≤j≤l)个位置上的字符c(c∈Σ)是按照Mpwm的第j列的字符分布随机生成的。


4.如权利要求3所述的基于深度学习的DNA模体长度预测方法,其特征在于,生成的样本总个数Nsam计算方法包括:令Ndataset表示序列数据集总个数,这些数据集包含真实的ChIP-seq数据集和随机生成的数据集;令li表示第i个序列数据集对应的真实模体的长度;令lmin表示模体的最小长度,即标签的最小值,此值取为8;依据公式得到截取的模体片断的个数;依据公式startPos∈[cutPos,L-l+cutPos]得到每个模体片断在延伸矩阵中可能的起始位置的个数,此值为8对于不同的模体片断长度是恒定的,均为L–li+1;,Nsam由公式算得;





5.如权利要求1所述的基于深度学习的DNA模体长度预测方法,其特征在于,构建基于卷积神经网络的预测模体长度的深度学习模型的方法包括:
用卷积层conv、池化层pool和全链接层net组成CNN;CNN为每个...

【专利技术属性】
技术研发人员:于强张晓张瑞燊胡雅娜
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1