当前位置: 首页 > 专利查询>吉林大学专利>正文

基于集合深度学习模型的ncRNAs家族预测方法技术

技术编号:36793823 阅读:15 留言:0更新日期:2023-03-08 22:52
本发明专利技术公开了一种基于集合深度学习模型的ncRNAs家族预测方法,其方法为:第一步、数据处理;第二步、模型设计;第三步、模型训练;有益效果:通过提取ncRNAs的序列特征来对ncRNAs家族进行预测,跳过了获取ncRNAs二级结构的过程,使得ncRNAs家族预测的准确率提高并且简化了预测过程;提升了ncRNAs家族预测的准确率;采用了双向的RNN模型Bi

【技术实现步骤摘要】
基于集合深度学习模型的ncRNAs家族预测方法


[0001]本专利技术涉及一种ncRNAs家族的预测方法,特别涉及一种基于集合深度学习模型的ncRNAs家族预测方法。

技术介绍

[0002]目前,随着高通量技术的迅猛发展,越来越多未知的ncRNAs被发现,同时ncRNAs在生命活动当中扮演着不可或缺的角色,因此研究这些未知ncRNAs的功能变得十分重要。因为相同家族的ncRNAs有着相似的功能,对未知的ncRNAs进行家族预测可以初步预测其功能,所以正确预测每一个未知ncRNAs的所属家族是必要和紧迫的。
[0003]现阶段ncRNAs家族预测方法可以分为三个方向,通过生物手段预测ncRNAs家族、通过ncRNAs的二级结构特征预测ncRNAs家族、通过ncRNAs的序列特征预测ncRNAs家族。但是以上这三种方法都存在很多问题。
[0004]通过生物手段预测ncRNAs家族存在的问题:
[0005]基于生物实验的方法尽管在一些领域可以达到很高的精度,但是会花费大量的人力物力且无法满足高通量的需求。
[0006]通过ncRNAs二级结构特征预测ncRNAs家族存在的问题:
[0007]ncRNAs的二级结构是由序列中的碱基通过氢键相互匹配形成的二维结构,ncRNAs的二级结构分为多种形式,主要由螺旋和单链构成,单链又分为发卡环、内环、突环与多分支结构,因为ncRNAs二级结构的多样性,导致获取ncRNAs二级结构的过程复杂且准确率低。因此通过ncRNAs二级结构特征预测ncRNAs家族不仅耗费大量时间,还存在着预测准确率低的问题。
[0008]通过ncRNAs序列特征预测ncRNAs家族存在的问题:
[0009]现存通过ncRNAs序列特征预测ncRNAs家族的主要方法包括ncRFP和ncDLRES。ncRFP方法采用静态LSTM方法,对不等长的ncRNAs序列采取填充或者截取的操作,导致部分ncRNAs序列特征信息缺失并且增添许多无用的特征信息,使得ncRNAs家族预测准确率下降。ncDLRES采用动态的LSTM避免了ncRNAs序列特征的缺失问题,但是ncDLRES在提取ncRNAs序列上下文信息特征的时候采取的是单向RNN模型,而单向RNN模型只能提取当前碱基之前的碱基信息,导致特征提取不充分。
[0010]以上的方法都不适合解决ncRNAs家族的预测问题。

技术实现思路

[0011]本专利技术的主要目的是为了解决现有ncRNAs预测方法不适合应用于大规模的ncRNAs家族预测问题;
[0012]本专利技术的另一个目的是为了提高ncRNAs家族预测的准确率和效率;
[0013]本专利技术为了达到上述目的、解决上述问题而提供的一种基于集合深度学习模型的ncRNAs家族预测方法。
[0014]本专利技术提供的基于集合深度学习模型的ncRNAs家族预测方法,其方法包括的步骤如下:
[0015]第一步、数据处理,具体步骤如下:
[0016]步骤1、从Rfam数据库收集ncRNAs的数据信息,收集6320条非冗余ncRNAs数据,其中IRES共计320条数据,其余ncRNAs家族包括microRNAs、5S_rRNA、5.8S_rRNA、ribozymes、CD

box、HACA

box、scaRNA、tRNA、Intron_gpI、Intron_gpII、leader和riboswitch各500条数据;
[0017]步骤2、将ncRNAs序列输入到集合深度学习模型中,采用one

hot编码将每一个ncRNAs的碱基编码为1*8的数据,A腺嘌呤、U尿嘧啶、G鸟嘌呤和C胞嘧啶是四种常见的ncRNAs的碱基,one

hot的编码规则为A

10000010、U

00101000、C

00010100、G

01000001、N

00000000,“N”代表一些稀有碱基,每一个ncRNAs序列编码之后的长度为L*8,L为ncRNAs序列中碱基的数量;
[0018]步骤3、在模型训练过程中采用十折交叉验证方法,因此将每个家族的ncRNAs数据均分为十份,轮流将其中九份作为训练集剩余一份作为测试集;
[0019]第二步、模型设计
[0020]模型设计包括了三种网络模型和一种注意力机制,三种网络模型分别为Bi

GRU循环神经网络、DenseNet卷积神经网络和全联接神经网络,Bi

GRU循环神经网络用于提取ncRNAs序列的上下文特征信息,DenseNet卷积神经网络用于提取ncRNAs序列的局部特征,全联接神经网络根据组合特征进行分类预测,注意力机制为Attention Mechanism,AttentionMechanism通过给Bi

GRU提取出来的特征分配不同的权重,将注意力进行调整转移进而忽略不相关信息,放大重要信息,模型设计具体步骤如下:
[0021]步骤1、使用动态Bi

GRU模型提取ncRNAs序列的上下文特征信息,具体如下:
[0022]将ncRNAs序列中所有经过数据处理过后的碱基信息提取出来并输入到Bi

GRU模型中,设置Bi

GRU模型中的隐藏层单元为512,最终输出结果的维度为(N,1024),N为每一批次中所有ncRNAs的碱基数量,设置两个GRU单元,每个GRU单元的计算公式如下:
[0023]1)、重置门计算公式:r
t
=σ(W
ir
·
X
t
+b
ir
+W
hr
·
h
t
‑1+b
nr
);
[0024]2)、更新门计算公式:Z
t
=σ(W
iz
·
X
t
+b
iz
+W
hz
·
h
t
‑1+b
hz
);
[0025]3)、重置当前记忆内容:
[0026]4)、计算GRU的输出:
[0027]W
ir
、W
iz
、W
hr
、W
hz
、W
it
、W
ht
表示模型中能够学习的权重矩阵,b
ir
、b
hr
、b
iz
、b
hz
、b
it
、b
ht
表示模型中的偏差;
[0028]重置门决定了如何将新输入的信息与前面的信息相结合,重置门的值越大代表需要记住上一刻的信息越多,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集合深度学习模型的ncRNAs家族预测方法,其特征在于:其方法包括的步骤如下:第一步、数据处理,具体步骤如下:步骤1、从Rfam数据库收集ncRNAs的数据信息,收集6320条非冗余ncRNAs数据,其中IRES共计320条数据,其余ncRNAs家族包括microRNAs、5S_rRNA、5.8S_rRNA、ribozymes、CD

box、HACA

box、scaRNA、tRNA、Intron_gpI、Intron_gpII、leader和riboswitch各500条数据;步骤2、将ncRNAs序列输入到集合深度学习模型中,采用one

hot编码将每一个ncRNAs的碱基编码为1*8的数据,A腺嘌呤、U尿嘧啶、G鸟嘌呤和C胞嘧啶是四种常见的ncRNAs的碱基,one

hot的编码规则为A

10000010、U

00101000、C

00010100、G

01000001、N

00000000,“N”代表一些稀有碱基,每一个ncRNAs序列编码之后的长度为L*8,L为ncRNAs序列中碱基的数量;步骤3、在模型训练过程中采用十折交叉验证方法,因此将每个家族的ncRNAs数据均分为十份,轮流将其中九份作为训练集剩余一份作为测试集;第二步、模型设计模型设计包括了三种网络模型和一种注意力机制,三种网络模型分别为Bi

GRU循环神经网络、DenseNet卷积神经网络和全联接神经网络,Bi

GRU循环神经网络用于提取ncRNAs序列的上下文特征信息,DenseNet卷积神经网络用于提取ncRNAs序列的局部特征,全联接神经网络根据组合特征进行分类预测,注意力机制为Attention Mechanism,AttentionMechanism通过给Bi

GRU提取出来的特征分配不同的权重,将注意力进行调整转移进而忽略不相关信息,放大重要信息,模型设计具体步骤如下:步骤1、使用动态Bi

GRU模型提取ncRNAs序列的上下文特征信息,具体如下:将ncRNAs序列中所有经过数据处理过后的碱基信息提取出来并输入到Bi

GRU模型中,设置Bi

GRU模型中的隐藏层单元为512,最终输出结果的维度为(N,1024),N为每一批次中所有ncRNAs的碱基数量,设置两个GRU单元,每个GRU单元的计算公式如下:1)、重置门计算公式:r
t
=σ(W
ir
·
X
t
+b
ir
+W
ht
·
h
t
‑1+b
hr
);2)、更新门计算公式:Z
t
=σ(W
iz
·
X
t
+b
iz
+W
hz
·
h
t
‑1+b
hz
);3)、重置当前记忆内容:4)、计算GRU的输出:W
ir
、W
iz
、W
hr
、W
hz
、W
it
、W
ht
表示模型中能够学习的权重矩阵,b
ir
、b
hr
、b
iz
、b
hz
、b
it
、b
ht
...

【专利技术属性】
技术研发人员:朱晓冬陈凯刘元宁王嘉豪郝磊郭新生
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1