【技术实现步骤摘要】
一种基于深度学习的DNA模体长度预测方法及预测系统
本专利技术属于DNA序列片断检测
,尤其涉及一种基于深度学习的DNA模体长度预测方法及预测系统。
技术介绍
目前,DNA非编码区域中存在着转录因子结合位点(TranscriptionFactorBindingSite,TFBS)等影响基因表达的序列片断。一个转录因子可以结合于DNA序列中的多个位点,这些TFBS往往是一组彼此间相似的序列片断,将它们抽象形成的一个序列模式称为模体。模体发现是通过计算手段在给定的DNA序列数据集中找出未知的模体,对研究基因表达调控起着至关重要的作用。DNA模体通常由位置权值矩阵(PositionWeightMatrix,PWM)来表示。PWM是一个4行l列的矩阵,l是模体的长度,矩阵中的每个元素表示了对应字符在TFBS的对应位置中的出现频率。模体长度作为模体的一个属性,它的值在模体发现时也是事先未知的。模体长度直接影响模体的质量。如果预测的模体长度与实际长度偏差较大,那么一方面会导致不能得到完整的模体信息,另一方面会导致找出假模体位点的概率增大。目前已经涌现了大量的模体发现算法,但是如何有效地确定模体长度仍是一个尚待解决的问题。当前主要有三种确定模体长度的方法。第一种方法是在模体发现前由用户指定模体长度或者使用一个默认的模体长度,然后在模体发现时只寻找这种长度的模体。由于方法简单,并且在某些情况下用户可能拥有模体长度的先验信息,大多数模体发现算法都支持这种模式。但是,这种方法的缺点是显而易见的。在现实中要挖掘的模体 ...
【技术保护点】
1.一种基于深度学习的DNA模体长度预测方法,其特征在于,所述基于深度学习的DNA模体长度预测方法包括:/n构建样本数据:在模体数据库中获取一个真实模体的PWM,使用PWM检测工具定位这个模体在DNA序列中的位点,对位点进行延伸,由对齐的延伸位点根据公式计算延伸矩阵M
【技术特征摘要】
1.一种基于深度学习的DNA模体长度预测方法,其特征在于,所述基于深度学习的DNA模体长度预测方法包括:
构建样本数据:在模体数据库中获取一个真实模体的PWM,使用PWM检测工具定位这个模体在DNA序列中的位点,对位点进行延伸,由对齐的延伸位点根据公式计算延伸矩阵Me,由Me根据公式计算相对熵向量V,将V作为样本并把这个模体的长度l作为标签;
构建基于卷积神经网络的预测模体长度的深度学习模型;
预测模型的应用:用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵Me和一个相对熵向量V,把V作为预测模型的输入;根据预测模型得出模体长度l得到优化的模体。
2.如权利要求1所述的基于深度学习的DNA模体长度预测方法,其特征在于,计算延伸矩阵Me公式为:
计算相对熵向量V公式为:
3.如权利要求1所述的基于深度学习的DNA模体长度预测方法,其特征在于,构建样本数据的方法进一步包括:
在JASPAR数据库中共获取人类转录因子结合位点的PWM,并在ENCODE数据库获取对应的ChIP-seq数据集;
截取真实模体PWM中相对熵高且长度较大的片段构建样本;给定一个真实模体的长度l,范围是8~21,通过公式设定截取长度k;
筛选一部分模体片断的出现位点构建样本;使用PWM检测工具Moods定位整个模体或模体片断在DNA序列数据集D中的出现位点;P表示整个模体的出现位点集合;令P-表示模体片断的出现位点集合;令P+表示从P-中筛选出的模体位点集合;
对P-中的位点根据Moods-Score从高到低进行排序,选取排名靠前的部分位点形成P+,横坐标表示P+中位点个数与P-中位点个数的比值,纵坐标表示P+中含有的真实模体位点的比例;
随着P+中位点个数的减少,P+中位点是真实模体位点的概率会变大;选取P-中得分排名靠前的小部分位点形成P+,同时保证P+中保留足够多的位点,呈现模体PWM中各个字符的分布;用公式计算要筛选的模体片断出现位点的个数|P+|;
|P+|=|P-|×10%;
对于每个可能的startPos取值通过在模体片段左边和右边分别延伸startPos–1个和L–startPos–k+1个位置构建一个样本,其中k是模体片断的长度;
startPos∈[cutPos,L-l+cutPos];
对于某些模体Mpwm生成模拟的ChIP-seq数据集Dsim,首先将Dsim初始化为t条背景序列组成的集合;然后,在Dsim中随机选取20%的序列;对于每条选出的序列s,在s的随机位置上植入模体Mpwm的一个随机实例m;m是一个与Mpwm等长的字符串,m的第j(1≤j≤l)个位置上的字符c(c∈Σ)是按照Mpwm的第j列的字符分布随机生成的。
4.如权利要求3所述的基于深度学习的DNA模体长度预测方法,其特征在于,生成的样本总个数Nsam计算方法包括:令Ndataset表示序列数据集总个数,这些数据集包含真实的ChIP-seq数据集和随机生成的数据集;令li表示第i个序列数据集对应的真实模体的长度;令lmin表示模体的最小长度,即标签的最小值,此值取为8;依据公式得到截取的模体片断的个数;依据公式startPos∈[cutPos,L-l+cutPos]得到每个模体片断在延伸矩阵中可能的起始位置的个数,此值为8对于不同的模体片断长度是恒定的,均为L–li+1;,Nsam由公式算得;
5.如权利要求1所述的基于深度学习的DNA模体长度预测方法,其特征在于,构建基于卷积神经网络的预测模体长度的深度学习模型的方法包括:
用卷积层conv、池化层pool和全链接层net组成CNN;CNN为每个...
【专利技术属性】
技术研发人员:于强,张晓,张瑞燊,胡雅娜,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。