一种基于深度学习的RNA修饰位点预测模型的构建方法技术

技术编号：38383282 阅读：10 留言：0更新日期：2023-08-05 17:40

本发明专利技术公开了一种基于深度学习的RNA修饰位点预测模型的构建方法，首先在获取RNA的样本序列之后，将序列数据转为为模型能够理解的向量，此过程特殊的引入了RNA序列的二级结构信息。其次，选择将CNN与RNN组合，采用一维卷积层与LSTM层作为模型基本层，引入注意力机制为序列中重要的碱基分配一个较高权重；最后，采用双输入模型，将两种信息同时送入模型，经过后续调整如正则化、超参数的调整确定模型的最终结构。样本序列被划分为训练集、验证集、以及最终用来测试模型性能的测试集；本发明专利技术增加了注意力机制来改善LSTM的性能，同时引入序列二级结构信息来提升模型分类的准确性，将一维卷积作为一个motif检测器，提高了模型的可解释性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的RNA修饰位点预测模型的构建方法

[0001]本专利技术涉及RNA修饰位点预测领域，更具体的，涉及基于深度学习卷积神经网络及循环神经网络组合的预测模型。

技术介绍

[0002]研究表明，RNA的转录后修饰广泛存在于各类生物体中，并起着非常重要的调控作用。RNA修饰导致的基因表达失调与还与人类癌症的发病机制有关，并由此研发出了许多治疗癌症的新思路。为此，准确鉴定这些修饰位点的位置信息将有利于这些修饰位点的后续研究。近些年，测序技术的出现为修饰位点的鉴定做出了许多贡献，同时使得各类数据都得到了指数式的增长。
[0003]然而，传统的测序方法有着流程复杂、耗时以及成本较高的一些缺点。因此，对于这些修饰位点的鉴别以及认识，只靠这些方法是远远不够的。虽然各类RNA修饰数据库中的修饰位点数据都方便获取，但是如何从这些大量的测序数据中构建相应的位点识别模型，以及提取出有价值的知识依旧是生物信息学中一个待解决的问题。目前，对于这些生物信息学数据的处理方法中，主要包含一些机器学习中出现频率较高的分类算法，以及一些基于深度学习的常见分类模型。
[0004]对于m6A甲基化修饰位点来说，Schwartz等人率先利用了机器学习的方法，参考了RNA序列的核苷酸组成、其相对位置以及二级结构等信息，结合逻辑回归分类器来预测短序列中是否存在m6A的甲基化修饰位点；2018年，Zhang等人利用miCLIP
‑
Seq数据建立一个深度学习模型DeepM6ASeq，该方法结合了卷积层以及LSTM，能够基...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的RNA修饰位点预测模型的构建方法，其特征在于：具体包括如下步骤：步骤1：使用RNA序列的修饰位点数据，获取含有修饰位点信息数据之后，将其定位到参考基因组hg19上，根据序列中是否存在含有修饰位点的特征“DRACH”保守区段进行筛选，并确定序列中心位置，截取此中心位置向两端延伸一定长度的DNA序列，作为构建模型的正样本，在相应修饰位点的参考位置下游搜索并截取同样以“DRACH”保守序列为中心但不是修饰位点的DNA序列，作为构建模型的负样本；根据正负样本的序列，获取RNA二级结构信息；步骤2：将正、负样本序列转换为模型能够理解的向量，输入的序列信息以及对应的二级结构信息需要进行相应的数据编码，采用one
‑
hot编码方法，四种碱基分别用对应的四维二进制向量表示，二级结构中互补碱基对和未互补配对碱基用对应的三维二进制向量表示；步骤3：数据处理结束后，构建模型网络架构，将CNN与RNN结合，采用一维卷积层与LSTM层作为模型的基本结构；步骤4：确定深度学习的网络架构后，对网络进行训练，完善模型细节，确定各超参数数值，使得模型预测表现最佳，将训练好的网络模型保存为H5格式的数据文件，即为RNA修饰位点预测的模型。2.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法，其特征在于：步骤1中使用GEO数据库中登陆号为GSE63753和GSE71154的RNA序列的修饰位点数据。3.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法，其特征在于：步骤1中，使用RNA序列的修饰位点数据，进行模型构建和测试，修饰位点数据包括5种不同的细胞系和组织类型，分别为：大脑组织、肝组织、A594细胞系、HEK293细胞系和CD8T细胞系。4.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法，其特征在于：步骤1中在样本序列总长选择上，围绕51bp、101bp和151bp设置长度梯度，选择模型验证效果最佳的长度，确定为101bp。5.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法，其特征在于：步骤1中使用计算...

【专利技术属性】
技术研发人员：吴晓明，张得志，李春霖，王溢文，杜建强，马天有，祖建，张虎勤，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人