一种基于深度学习的RNA修饰位点预测模型的构建方法技术

技术编号:38383282 阅读:10 留言:0更新日期:2023-08-05 17:40
本发明专利技术公开了一种基于深度学习的RNA修饰位点预测模型的构建方法,首先在获取RNA的样本序列之后,将序列数据转为为模型能够理解的向量,此过程特殊的引入了RNA序列的二级结构信息。其次,选择将CNN与RNN组合,采用一维卷积层与LSTM层作为模型基本层,引入注意力机制为序列中重要的碱基分配一个较高权重;最后,采用双输入模型,将两种信息同时送入模型,经过后续调整如正则化、超参数的调整确定模型的最终结构。样本序列被划分为训练集、验证集、以及最终用来测试模型性能的测试集;本发明专利技术增加了注意力机制来改善LSTM的性能,同时引入序列二级结构信息来提升模型分类的准确性,将一维卷积作为一个motif检测器,提高了模型的可解释性。性。性。

【技术实现步骤摘要】
一种基于深度学习的RNA修饰位点预测模型的构建方法


[0001]本专利技术涉及RNA修饰位点预测领域,更具体的,涉及基于深度学习卷积神经网络及循环神经网络组合的预测模型。

技术介绍

[0002]研究表明,RNA的转录后修饰广泛存在于各类生物体中,并起着非常重要的调控作用。RNA修饰导致的基因表达失调与还与人类癌症的发病机制有关,并由此研发出了许多治疗癌症的新思路。为此,准确鉴定这些修饰位点的位置信息将有利于这些修饰位点的后续研究。近些年,测序技术的出现为修饰位点的鉴定做出了许多贡献,同时使得各类数据都得到了指数式的增长。
[0003]然而,传统的测序方法有着流程复杂、耗时以及成本较高的一些缺点。因此,对于这些修饰位点的鉴别以及认识,只靠这些方法是远远不够的。虽然各类RNA修饰数据库中的修饰位点数据都方便获取,但是如何从这些大量的测序数据中构建相应的位点识别模型,以及提取出有价值的知识依旧是生物信息学中一个待解决的问题。目前,对于这些生物信息学数据的处理方法中,主要包含一些机器学习中出现频率较高的分类算法,以及一些基于深度学习的常见分类模型。
[0004]对于m6A甲基化修饰位点来说,Schwartz等人率先利用了机器学习的方法,参考了RNA序列的核苷酸组成、其相对位置以及二级结构等信息,结合逻辑回归分类器来预测短序列中是否存在m6A的甲基化修饰位点;2018年,Zhang等人利用miCLIP

Seq数据建立一个深度学习模型DeepM6ASeq,该方法结合了卷积层以及LSTM,能够基于单碱基测序数据预测序列中的m6A修饰位点,并且表征其位点周围的生物学特征。
[0005]现有方法虽然虽然取得了一定成果,但其预测性能还有待提升,同时,关于位点形成的机制以及规律还需要深入的挖掘。

技术实现思路

[0006]本专利技术利用深度学习的方法建立了一个端到端的修饰位点识别模型。该模型基于卷积神经网络和循环神经网络,进行组合,并增加RNA序列的二级结构信息,形成双特征输入模型。同时在循环神经网络层之后加上了注意力机制,以此来提高模型性能。最后,再通过对卷积层进行可视化的方式来了解模型的工作原理以及模型所关注的重要特征。
[0007]为达到上述目的,本专利技术采用如下技术方案:
[0008]一种基于深度学习的RNA修饰位点预测模型的构建方法,包括如下步骤:
[0009]步骤1:本专利技术使用GEO数据库中登陆号为GSE63753和GSE71154的人类RNA序列的m6A修饰位点数据,进行模型构建和测试。数据主要包括了5种不同的细胞系和组织类型,分别为:大脑组织、肝组织、A594细胞系、HEK293细胞系和CD8T细胞系。获取含有m6A位点信息数据之后,将其定位到人类参考基因组hg19上,根据序列中是否存在含有m6A位点的特征“DRACH”保守区段进行筛选,并确定序列中心位置,截取此中心位置向两端延伸一定长度的
DNA序列,作为构建模型的正样本。在相应m6A参考位置下游搜索并截取同样以“DRACH”保守序列为中心但不是m6A修饰位点的DNA序列,作为构建模型的负样本。在样本序列总长选择上,围绕51bp、101bp和151bp设置长度梯度,选择令模型验证效果最佳的长度。获取原始正负样本序列之后,还需要对其进行预处理;
[0010]为了避免冗余数据对模型训练以及评估所产生的影响,利用计算机程序“CD

HIT

EST”工具包对所有的样本数据进行去冗余操作,即去除与聚类类中代表序列相似度高于设定阈值的样本,本专利技术中设定为80%;
[0011]考虑序列的二级结构也具有一定的生物学意义,模型还引入了二级结构信息。RNAfold程序能根据自由能最低等原理进行RNA结构预测,获取dot

bracket表示法标记的原始样本序列的最佳二级结构。RNA序列中的未产生碱基互补配对的自由碱基用“.”表示,而形成互补碱基对的两个碱基分别用圆括号“(”和“)”表示。
[0012]步骤2:将RNA序列转换为模型能够理解的向量。输入的序列信息以及对应的二级结构信息需要进行相应的数据编码,采用one

hot编码方法。碱基A用向量[1,0,0,0]表示,U用[0,1,0,0]表示,C和G分别表示为[0,0,1,0]和[0,0,0,1]。
[0013]二级结构信息中点、左右括号表示碱基所属的二级结构,每个碱基其编码为3维的向量,其中“(”被编码为了[1,0,0],“)”被编码为了[0,1,0],“.”则为[0,0,1];
[0014]步骤3:数据处理结束后,构建模型网络架构。将CNN与RNN结合,采用一维卷积层与LSTM层作为模型的基本结构。模型包含三个模块,分别为处理RNA序列信息的Seq模块,处理序列二级结构信息的Str模块,以及将这两者合并处理输出的Joint模块。Seq和Str模块均包含两组由一维卷积层、批标准化层以及Dropout层组成的网络块。在Joint模块中以上两个模块的信息被整合在一起,再依次通过BiLSTM层以及Attention层,BiLSTM层用来学习顺序信息,Attention层用来改善BiLSTM的效果,提升模型整体顺序信息学习的效果。最后,全连接层对以上的信息进行最终的整合并作出相应的预测。
[0015]在模型中,本专利技术引入了注意力机制,其好处是可以为RNA序列中一些重要的碱基分配较高的权重,从而使得模型不仅关注m6A位点上下文信息,还能捕获到序列中的重要位置信息;
[0016]本专利技术还采取双输入模式来整合RNA序列信息和相应二级结构信息,进一步提高了模型的分类效果;
[0017]步骤4:确定深度学习的网络架构后,对网络进行训练,完善模型细节并确定各项超参数数值。
[0018]进一步地,步骤1中去冗余之后,正样本的数量为35922,负样本为29797。为了防止不平衡数据对模型的影响,通过下采样,保证了正负样本数据量的一致。
[0019]进一步地,步骤1中根据以往经验和设置梯度实验验证确定了序列裁剪的最佳长度为101bp;进一步地,步骤3中模型中的循环神经网络层采用了双向LSTM,经过实验验证,其网络层中的隐藏节点为128时模型效果最好。
[0020]进一步地,步骤中注意力机制的详细计算过程:首先,将输入信号h
t
送入一个单层感知机中来获得h
t
的隐含层响应:u
t
=tanh(W
w
h
t
+b
w
)。随后用Softmax操作获得一个归一化的权重矩阵最后再输出序列与权重的加权和output=∑
t
α
t
h
t
;其好处是可以为RNA序列中一些重要的碱基分配较高的权重,从而使得模型不仅关注
m6A位点上下文信息,还能捕获到序列中的重要位置信息。
[0021]进一步地,步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的RNA修饰位点预测模型的构建方法,其特征在于:具体包括如下步骤:步骤1:使用RNA序列的修饰位点数据,获取含有修饰位点信息数据之后,将其定位到参考基因组hg19上,根据序列中是否存在含有修饰位点的特征“DRACH”保守区段进行筛选,并确定序列中心位置,截取此中心位置向两端延伸一定长度的DNA序列,作为构建模型的正样本,在相应修饰位点的参考位置下游搜索并截取同样以“DRACH”保守序列为中心但不是修饰位点的DNA序列,作为构建模型的负样本;根据正负样本的序列,获取RNA二级结构信息;步骤2:将正、负样本序列转换为模型能够理解的向量,输入的序列信息以及对应的二级结构信息需要进行相应的数据编码,采用one

hot编码方法,四种碱基分别用对应的四维二进制向量表示,二级结构中互补碱基对和未互补配对碱基用对应的三维二进制向量表示;步骤3:数据处理结束后,构建模型网络架构,将CNN与RNN结合,采用一维卷积层与LSTM层作为模型的基本结构;步骤4:确定深度学习的网络架构后,对网络进行训练,完善模型细节,确定各超参数数值,使得模型预测表现最佳,将训练好的网络模型保存为H5格式的数据文件,即为RNA修饰位点预测的模型。2.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法,其特征在于:步骤1中使用GEO数据库中登陆号为GSE63753和GSE71154的RNA序列的修饰位点数据。3.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法,其特征在于:步骤1中,使用RNA序列的修饰位点数据,进行模型构建和测试,修饰位点数据包括5种不同的细胞系和组织类型,分别为:大脑组织、肝组织、A594细胞系、HEK293细胞系和CD8T细胞系。4.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法,其特征在于:步骤1中在样本序列总长选择上,围绕51bp、101bp和151bp设置长度梯度,选择模型验证效果最佳的长度,确定为101bp。5.如权利要求1所述的基于深度学习的RNA修饰位点预测模型的构建方法,其特征在于:步骤1中使用计算...

【专利技术属性】
技术研发人员:吴晓明张得志李春霖王溢文杜建强马天有祖建张虎勤
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1