一种基于卷积神经网络的核小体分类预测方法技术

技术编号:16969978 阅读:218 留言:0更新日期:2018-01-07 06:46
本发明专利技术公开了一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性;3)添加生物特性;4)获取第24维向量;5)添加核苷酸化学性质;6)得到包含生物信息的矩阵;7)构建卷积神经网络结构;8)分类核小体。这种方法能精准预测核小体的分类。

【技术实现步骤摘要】
一种基于卷积神经网络的核小体分类预测方法
本专利技术涉及遗传学的分类预测,具体是一种基于卷积神经网络的核小体分类预测方法。
技术介绍
核小体预测是目前遗传学研究的重要内容,核小体的特殊结构限制了负责基本生命过程的蛋白质与围绕组蛋白上的DNA接触,所以它的形成以及在染色质上的精确定位在基因表达过程中起着无可替代的作用,直接或间接地影响转录等基本生物过程。核小体定位是真核生物基因转录调节的重要方式,要彻底了解基因表达调控信息,就必须考虑核小体定位的调控作用,核小体的位置信息与基因表达调控的关系是当前表观遗传学的研究热点,因此提供一个快速、准确的核小体分类十分必要。然而,通过生物学的方法来测定核小体定位非常困难,并且效率较低。因此应用生物信息学的相关知识,使用计算机预测技术来测定核小体定位就显得尤为重要,对于发现和认识核小体结构和生理功能有着重要的意义。目前,针对核小体定位的计算模型还很欠缺。查阅文献,可以发现,目前为数不多专门设计用来进行核小体定位预测的计算模型,iNuc-PhysChem和Segal。iNuc-PhysChem基于核小体序列具有一定的位置特异性物理化学识别核小体定位的预测器(ChenW,LinH,FengP-M,DingC,ZuoY-C,etal.(2012)iNuc-PhysChem:ASequence-BasedPredictorforIdentifyingNucleosomesviaPhysicochemicalProperties.PLoSONE7(10):e47843.doi:10.1371/journal..pone.0047843)。另一方面,Segal(SchoolofElectronicsandInformationEngineering,SoochowUniversity,Suzhou,215006)通过核小体和连接序列的二核苷酸位置频率建立了核小体和连接序列两组得分函数,并以其差值作为核小体的定位依据。然而,综合分析这两个预测模型,可以发现预测生物物种局限在一种酵母,迫切需要进一步建立一个适应更广泛的生物类型的核小体定位的预测器。基于一种称为“iNuc-PseKNC”(GuoSH,DengEZ,XuLQ,etal.iNuc-PseKNC:asequence-basedpredictorforpredictingnucleosomepositioningingenomeswithpseudok-tuplenucleotidecomposition.[J].Bioinformatics,2014,30(11):1522)的预测因子的改进方法预测核小体位置的核心算法,但现有的预测算法大部分仅依据核小体的统计特性,定位准确性很受局限。另一方面,经研究发现,DNA连接序列作为两个核小体的连接纽带,存在一定的统计特性。
技术实现思路
本专利技术的目的是针对现有技术的不足,而提供一种基于卷积神经网络的核小体分类预测方法。这种方法能精准预测核小体的分类。实现本专利技术目的技术方案是:一种基于卷积神经网络的核小体分类预测方法,包括如下步骤:1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):Xi=(Pi,1,Pi,2,...,Pi,16)T(1)Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Gonietal(Genomebiology,2007,8,R263).中的六种物理结构性质的原始值如表1,二核苷酸的空间排列由六个参数表征(Dickerson,R.E.(1989)Definitionsandnomenclatureofnucleicacidstructureparameters.J.Biomol.Struct.Dynam.),其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值如表2,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T(3)Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;表1.Gonietal的六种物理结构性质的原始值表2.通过公式2的标准转换从表1获得的值。3)添加生物特性:采用Segal(SegalE,Foudufe—MittendorfY,ChenL,eta1.Agenomiccodefornueleosomepositioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率如表3所示的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T(4)ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;表316种二核苷酸在核小体或链接体DNA序列中的平均占有率4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该类核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)得到的23维向量中,得到24维向量,对应这阶段特征向量有公式(5)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24)T(5)Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;5)添加核苷酸化学性质:在步骤4)得到的24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,如表4所示,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示;第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示;第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T(6),Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;表4,脱氧核糖核苷酸的化学性质6本文档来自技高网
...
一种基于卷积神经网络的核小体分类预测方法

【技术保护点】
一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):X

【技术特征摘要】
1.一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):Xi=(Pi,1,Pi,2,...,Pi,16)T(1)Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Gonietal-Genomebiology,2007,8,R263中的六种物理结构性质的原始值,二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T(3)Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;3)添加生物特性:采用Segal-SegalE,Foudufe—MittendorfY,ChenL,eta1.Agenomiccodefornueleosomepositioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T(4)ki,23表...

【专利技术属性】
技术研发人员:樊永显龚浩蔡国永张向文张龙
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1