当前位置: 首页 > 专利查询>吉林大学专利>正文

基于集合深度学习模型的ncRNAs家族预测方法技术

技术编号：36793823 阅读：15 留言：0更新日期：2023-03-08 22:52

本发明专利技术公开了一种基于集合深度学习模型的ncRNAs家族预测方法，其方法为：第一步、数据处理；第二步、模型设计；第三步、模型训练；有益效果：通过提取ncRNAs的序列特征来对ncRNAs家族进行预测，跳过了获取ncRNAs二级结构的过程，使得ncRNAs家族预测的准确率提高并且简化了预测过程；提升了ncRNAs家族预测的准确率；采用了双向的RNN模型Bi

全部详细技术资料下载

【技术实现步骤摘要】
基于集合深度学习模型的ncRNAs家族预测方法

[0001]本专利技术涉及一种ncRNAs家族的预测方法，特别涉及一种基于集合深度学习模型的ncRNAs家族预测方法。

技术介绍

[0002]目前，随着高通量技术的迅猛发展，越来越多未知的ncRNAs被发现，同时ncRNAs在生命活动当中扮演着不可或缺的角色，因此研究这些未知ncRNAs的功能变得十分重要。因为相同家族的ncRNAs有着相似的功能，对未知的ncRNAs进行家族预测可以初步预测其功能，所以正确预测每一个未知ncRNAs的所属家族是必要和紧迫的。
[0003]现阶段ncRNAs家族预测方法可以分为三个方向，通过生物手段预测ncRNAs家族、通过ncRNAs的二级结构特征预测ncRNAs家族、通过ncRNAs的序列特征预测ncRNAs家族。但是以上这三种方法都存在很多问题。
[0004]通过生物手段预测ncRNAs家族存在的问题：
[0005]基于生物实验的方法尽管在一些领域可以达到很高的精度，但是会花费大量的人力物力且无法满足高通量的需求。
[0006]通过ncRNAs二级结构特征预测ncRNAs家族存在的问题：
[0007]ncRNAs的二级结构是由序列中的碱基通过氢键相互匹配形成的二维结构，ncRNAs的二级结构分为多种形式，主要由螺旋和单链构成，单链又分为发卡环、内环、突环与多分支结构，因为ncRNAs二级结构的多样性，导致获取ncRNAs二级结构的过程复杂且准确率低。因此通过ncRNAs二级结构特征预测ncRN...

【技术保护点】

【技术特征摘要】
1.一种基于集合深度学习模型的ncRNAs家族预测方法，其特征在于：其方法包括的步骤如下：第一步、数据处理，具体步骤如下：步骤1、从Rfam数据库收集ncRNAs的数据信息，收集6320条非冗余ncRNAs数据，其中IRES共计320条数据，其余ncRNAs家族包括microRNAs、5S_rRNA、5.8S_rRNA、ribozymes、CD
‑
box、HACA
‑
box、scaRNA、tRNA、Intron_gpI、Intron_gpII、leader和riboswitch各500条数据；步骤2、将ncRNAs序列输入到集合深度学习模型中，采用one
‑
hot编码将每一个ncRNAs的碱基编码为1*8的数据，A腺嘌呤、U尿嘧啶、G鸟嘌呤和C胞嘧啶是四种常见的ncRNAs的碱基，one
‑
hot的编码规则为A
‑
10000010、U
‑
00101000、C
‑
00010100、G
‑
01000001、N
‑
00000000，“N”代表一些稀有碱基，每一个ncRNAs序列编码之后的长度为L*8，L为ncRNAs序列中碱基的数量；步骤3、在模型训练过程中采用十折交叉验证方法，因此将每个家族的ncRNAs数据均分为十份，轮流将其中九份作为训练集剩余一份作为测试集；第二步、模型设计模型设计包括了三种网络模型和一种注意力机制，三种网络模型分别为Bi
‑
GRU循环神经网络、DenseNet卷积神经网络和全联接神经网络，Bi
‑
GRU循环神经网络用于提取ncRNAs序列的上下文特征信息，DenseNet卷积神经网络用于提取ncRNAs序列的局部特征，全联接神经网络根据组合特征进行分类预测，注意力机制为Attention Mechanism，AttentionMechanism通过给Bi
‑
GRU提取出来的特征分配不同的权重，将注意力进行调整转移进而忽略不相关信息，放大重要信息，模型设计具体步骤如下：步骤1、使用动态Bi
‑
GRU模型提取ncRNAs序列的上下文特征信息，具体如下：将ncRNAs序列中所有经过数据处理过后的碱基信息提取出来并输入到Bi
‑
GRU模型中，设置Bi
‑
GRU模型中的隐藏层单元为512，最终输出结果的维度为(N，1024)，N为每一批次中所有ncRNAs的碱基数量，设置两个GRU单元，每个GRU单元的计算公式如下：1)、重置门计算公式：r
t
＝σ(W
ir
·
X
t
+b
ir
+W
ht
·
h
t
‑1+b
hr
)；2)、更新门计算公式：Z
t
＝σ(W
iz
·
X
t
+b
iz
+W
hz
·
h
t
‑1+b
hz
)；3)、重置当前记忆内容：4)、计算GRU的输出：W
ir
、W
iz
、W
hr
、W
hz
、W
it
、W
ht
表示模型中能够学习的权重矩阵，b
ir
、b
hr
、b
iz
、b
hz
、b
it
、b
ht
...

【专利技术属性】
技术研发人员：朱晓冬，陈凯，刘元宁，王嘉豪，郝磊，郭新生，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术