【技术实现步骤摘要】
基于集合深度学习模型的ncRNAs家族预测方法
[0001]本专利技术涉及一种ncRNAs家族的预测方法,特别涉及一种基于集合深度学习模型的ncRNAs家族预测方法。
技术介绍
[0002]目前,随着高通量技术的迅猛发展,越来越多未知的ncRNAs被发现,同时ncRNAs在生命活动当中扮演着不可或缺的角色,因此研究这些未知ncRNAs的功能变得十分重要。因为相同家族的ncRNAs有着相似的功能,对未知的ncRNAs进行家族预测可以初步预测其功能,所以正确预测每一个未知ncRNAs的所属家族是必要和紧迫的。
[0003]现阶段ncRNAs家族预测方法可以分为三个方向,通过生物手段预测ncRNAs家族、通过ncRNAs的二级结构特征预测ncRNAs家族、通过ncRNAs的序列特征预测ncRNAs家族。但是以上这三种方法都存在很多问题。
[0004]通过生物手段预测ncRNAs家族存在的问题:
[0005]基于生物实验的方法尽管在一些领域可以达到很高的精度,但是会花费大量的人力物力且无法满足高通量的需求。
[0006]通过ncRNAs二级结构特征预测ncRNAs家族存在的问题:
[0007]ncRNAs的二级结构是由序列中的碱基通过氢键相互匹配形成的二维结构,ncRNAs的二级结构分为多种形式,主要由螺旋和单链构成,单链又分为发卡环、内环、突环与多分支结构,因为ncRNAs二级结构的多样性,导致获取ncRNAs二级结构的过程复杂且准确率低。因此通过ncRNAs二级结构特征预测ncRN ...
【技术保护点】
【技术特征摘要】
1.一种基于集合深度学习模型的ncRNAs家族预测方法,其特征在于:其方法包括的步骤如下:第一步、数据处理,具体步骤如下:步骤1、从Rfam数据库收集ncRNAs的数据信息,收集6320条非冗余ncRNAs数据,其中IRES共计320条数据,其余ncRNAs家族包括microRNAs、5S_rRNA、5.8S_rRNA、ribozymes、CD
‑
box、HACA
‑
box、scaRNA、tRNA、Intron_gpI、Intron_gpII、leader和riboswitch各500条数据;步骤2、将ncRNAs序列输入到集合深度学习模型中,采用one
‑
hot编码将每一个ncRNAs的碱基编码为1*8的数据,A腺嘌呤、U尿嘧啶、G鸟嘌呤和C胞嘧啶是四种常见的ncRNAs的碱基,one
‑
hot的编码规则为A
‑
10000010、U
‑
00101000、C
‑
00010100、G
‑
01000001、N
‑
00000000,“N”代表一些稀有碱基,每一个ncRNAs序列编码之后的长度为L*8,L为ncRNAs序列中碱基的数量;步骤3、在模型训练过程中采用十折交叉验证方法,因此将每个家族的ncRNAs数据均分为十份,轮流将其中九份作为训练集剩余一份作为测试集;第二步、模型设计模型设计包括了三种网络模型和一种注意力机制,三种网络模型分别为Bi
‑
GRU循环神经网络、DenseNet卷积神经网络和全联接神经网络,Bi
‑
GRU循环神经网络用于提取ncRNAs序列的上下文特征信息,DenseNet卷积神经网络用于提取ncRNAs序列的局部特征,全联接神经网络根据组合特征进行分类预测,注意力机制为Attention Mechanism,AttentionMechanism通过给Bi
‑
GRU提取出来的特征分配不同的权重,将注意力进行调整转移进而忽略不相关信息,放大重要信息,模型设计具体步骤如下:步骤1、使用动态Bi
‑
GRU模型提取ncRNAs序列的上下文特征信息,具体如下:将ncRNAs序列中所有经过数据处理过后的碱基信息提取出来并输入到Bi
‑
GRU模型中,设置Bi
‑
GRU模型中的隐藏层单元为512,最终输出结果的维度为(N,1024),N为每一批次中所有ncRNAs的碱基数量,设置两个GRU单元,每个GRU单元的计算公式如下:1)、重置门计算公式:r
t
=σ(W
ir
·
X
t
+b
ir
+W
ht
·
h
t
‑1+b
hr
);2)、更新门计算公式:Z
t
=σ(W
iz
·
X
t
+b
iz
+W
hz
·
h
t
‑1+b
hz
);3)、重置当前记忆内容:4)、计算GRU的输出:W
ir
、W
iz
、W
hr
、W
hz
、W
it
、W
ht
表示模型中能够学习的权重矩阵,b
ir
、b
hr
、b
iz
、b
hz
、b
it
、b
ht
...
【专利技术属性】
技术研发人员:朱晓冬,陈凯,刘元宁,王嘉豪,郝磊,郭新生,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。