当前位置: 首页 > 专利查询>苏州大学专利>正文

一种全基因组核小体密度预测方法、系统及电子设备技术方案

技术编号:38552738 阅读:10 留言:0更新日期:2023-08-22 20:58
本发明专利技术涉及一种全基因组核小体密度预测方法、系统及电子设备,方法包括:获取全基因组染色体的DNA序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列;构建并训练DeepNDP模型,得到训练好的DeepNDP模型;将第一编码序列和第二编码序列输入训练好的DeepNDP模型,得到全基因组核小体密度结果,其中,所述DeepNDP模型包括依次连接的特征提取网络、Concatenate层、Transformer层、Flatten层和两个全连接层。本发明专利技术通过将DNA序列编码成两种形式,使得模型泛化能力更换,本发明专利技术可以更加高效且准确地对核小体分布进行识别,无需进行成本高昂的生物实验。需进行成本高昂的生物实验。需进行成本高昂的生物实验。

【技术实现步骤摘要】
一种全基因组核小体密度预测方法、系统及电子设备


[0001]本专利技术涉及生物信息学
,尤其是指一种全基因组核小体密度预测方法、系统及电子设备。

技术介绍

[0002]核小体密度预测是指使用计算方法对每个碱基位点的核小体信号强度进行预测,从而得出基因组上连续的核小体密度。核小体作为染色质的基本单位,是遗传过程中的关键参与者,它的精确位置可以调节基因组对DNA结合蛋白的可及性,从而实现对基因表达、DNA复制和修复的调节。因此识别基因组上的核小体位置可以帮助人们深入研究各种生物过程。
[0003]在过去的研究中,已经提出了许多基于DNA序列的计算方法来判断DNA序列中的核小体位置,例如:
[0004](1)iNuc

PseKNC:核小体定位方法。输入长度为147bp的DNA序列,提取包含6个局部DNA结构特性的伪k元组核苷酸组成的特征向量,然后将这些特征输入到SVM分类器中预测序列是否为核小体序列。
[0005](2)DLNN:核小体定位方法。输入长度为147bp的DNA序列,编码成ont

hot形式,使用卷积网络和循环网络对序列进行建模分析,预测序列是否为核小体序列。
[0006](3)Routhier等人:核小体密度预测方法。以滑动窗口的形式获取整条染色体上的DNA序列,使用三个顺序堆叠的卷积层,预测输入序列中心位点的核小体密度。
[0007]现有技术中,核小体定位方法只能捕获147bp内的上下文信息,无法学习到碱基间的长程相互作用关系,并且不能快速地对整条染色体序列进行预测分析。
[0008]而Routhier等人提出了基于深度学习的核小体密度预测方法识别精度较低,预测性能仍有改进空间。

技术实现思路

[0009]为此,本专利技术所要解决的技术问题在于克服现有技术中核小体密度预测方法识别精度较低的问题。
[0010]为解决上述技术问题,本专利技术提供了一种全基因组核小体密度预测方法,包括:
[0011]步骤S1:获取全基因组染色体的DNA序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列;
[0012]同时构建并训练DeepNDP模型,得到训练好的DeepNDP模型;
[0013]步骤S2:将所述第一编码序列和第二编码序列输入训练好的DeepNDP模型进行预测,得到全基因组核小体密度结果;
[0014]其中,所述DeepNDP模型包括依次连接的特征提取网络、Concatenate层、Transformer层、Flatten层和两个全连接层;
[0015]所述特征提取网络用于提取第一编码序列的第一局部特征、以及提取第二编码序
列的第二局部特征;所述Concatenate层用于将所述第一局部特征和第二局部特征进行拼接,得到拼接特征;所述Transformer层用于提取所述拼接特征的全局特征;所述Flatten层用于改变Transformer层输出的维度;所述全连接层用于预测全基因组核小体密度。
[0016]在本专利技术的一个实施例中,所述步骤S2中的特征提取网络包括特征提取模块ResNet和特征提取模块CNNNet,所述特征提取模块ResNet用于提取第一编码序列的第一局部特征,所述特征提取模块CNNNet用于提取第二编码序列的第二局部特征。
[0017]在本专利技术的一个实施例中,所述特征提取模块ResNet包括依次连接的第一CNN层、三个ResBlock层、第二CNN层、第三CNN层和第一Reshape层,所述第一Reshape层用于改变第三CNN层输出的维度。
[0018]在本专利技术的一个实施例中,所述ResBlock层包括第一列CNN单元和第二列CNN单元;
[0019]所述第一列CNN单元包括依次连接的第四CNN层、第五CNN层和第六CNN层,其中,所述第四CNN层、第五CNN层和第六CNN层采用的卷积核大小依次为5、16和16;
[0020]所述第二列CNN单元包括依次连接的第七CNN层、第八CNN层和第九CNN层,其中,所述第七CNN层、第八CNN层和第九CNN层采用的卷积核大小依次为3、8和8;
[0021]其中,所述第六CNN层的输出、第九CNN层的输出和当前ResBlock层的输入进行相加操作。
[0022]在本专利技术的一个实施例中,所述特征提取模块ResNet中所有的CNN层之后均连接有ReLU激活函数。
[0023]在本专利技术的一个实施例中,所述特征提取模块CNNNet包括依次连接的第十CNN层、第十一CNN层、第十二CNN层和第二Reshape层,所述第二Reshape层用于改变第十二CNN层输出的维度。
[0024]在本专利技术的一个实施例中,所述步骤S1中获取全基因组染色体的DNA序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列的方法为:
[0025]获取全基因组染色体的DNA序列;
[0026]对所述全基因组染色体的DNA序列进行One

hot编码,得到One

hot编码序列,并同时对所述全基因组染色体的DNA序列进行核苷酸化学性质编码,得到核苷酸化学性质编码序列,其中,所述One

hot编码序列为第一编码序列,所述核苷酸化学性质编码序列为第二编码序列。
[0027]为解决上述技术问题,本专利技术提供了一种全基因组核小体密度预测系统,包括:
[0028]编码与构建模块:用于获取全基因组染色体的DNA序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列;
[0029]同时用于构建并训练DeepNDP模型,得到训练好的DeepNDP模型;
[0030]预测模块:用于将所述第一编码序列和第二编码序列输入训练好的DeepNDP模型进行预测,得到全基因组核小体密度结果;
[0031]其中,所述DeepNDP模型包括依次连接的特征提取网络、Concatenate层、Transformer层、Flatten层和两个全连接层;
[0032]所述特征提取网络用于提取第一编码序列的第一局部特征、以及提取第二编码序列的第二局部特征;所述Concatenate层用于将所述第一局部特征和第二局部特征进行拼
接,得到拼接特征;所述Transformer层用于提取所述拼接特征的全局特征;所述Flatten层用于改变Transformer层输出的维度;所述全连接层用于预测全基因组核小体密度。
[0033]为解决上述技术问题,本专利技术提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述全基因组核小体密度预测方法的步骤。
[0034]为解决上述技术问题,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述全基因组核小体密度预测方法的步骤。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全基因组核小体密度预测方法,其特征在于:包括:步骤S1:获取全基因组染色体的DNA序列并分别进行第一编码和第二编码,得到第一编码序列和第二编码序列;同时构建并训练DeepNDP模型,得到训练好的DeepNDP模型;步骤S2:将所述第一编码序列和第二编码序列输入训练好的DeepNDP模型进行预测,得到全基因组核小体密度结果;其中,所述DeepNDP模型包括依次连接的特征提取网络、Concatenate层、Transformer层、Flatten层和两个全连接层;所述特征提取网络用于提取第一编码序列的第一局部特征、以及提取第二编码序列的第二局部特征;所述Concatenate层用于将所述第一局部特征和第二局部特征进行拼接,得到拼接特征;所述Transformer层用于提取所述拼接特征的全局特征;所述Flatten层用于改变Transformer层输出的维度;所述全连接层用于预测全基因组核小体密度。2.根据权利要求1所述的全基因组核小体密度预测方法,其特征在于:所述步骤S2中的特征提取网络包括特征提取模块ResNet和特征提取模块CNNNet,所述特征提取模块ResNet用于提取第一编码序列的第一局部特征,所述特征提取模块CNNNet用于提取第二编码序列的第二局部特征。3.根据权利要求2所述的全基因组核小体密度预测方法,其特征在于:所述特征提取模块ResNet包括依次连接的第一CNN层、三个ResBlock层、第二CNN层、第三CNN层和第一Reshape层,所述第一Reshape层用于改变第三CNN层输出的维度。4.根据权利要求3所述的全基因组核小体密度预测方法,其特征在于:所述ResBlock层包括第一列CNN单元和第二列CNN单元;所述第一列CNN单元包括依次连接的第四CNN层、第五CNN层和第六CNN层,其中,所述第四CNN层、第五CNN层和第六CNN层采用的卷积核大小依次为5、16和16;所述第二列CNN单元包括依次连接的第七CNN层、第八CNN层和第九CNN层,其中,所述第七CNN层、第八CNN层和第九CNN层采用的卷积核大小依次为3、8和8;其中,所述第六CNN层的输出、第九CNN层的输出和当前ResBlock层的输入进行相加操作。5.根据权利要求4所述的全基因组核小体密度预测方法,其特征在于:所述特征提取模块ResNet中所有的CNN层之后均连接有ReLU...

【专利技术属性】
技术研发人员:吴庭芳周昳婷
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1