当前位置: 首页 > 专利查询>同济大学专利>正文

基于卷积门控递归神经网络的RNA基元位点预测方法及系统技术方案

技术编号:28627918 阅读:34 留言:0更新日期:2021-05-28 16:24
本发明专利技术公开了基于卷积门控递归神经网络的RNA基元位点预测方法及系统,包括嵌入层模块、多尺度卷积层模块、双向门控递归神经网络层模块、输出层模块;系统通过嵌入层模块将RNA序列转化为RNA数字序列;基于多尺度卷积层模块从RNA数字序列中学习不同长度基元的局部绑定特征信息并从中挑选出第一主要特征信息;通过双向门控递归神经网络层模块学习第一主要特征信息中的RNA数字序列的当前基元位点与其上下游子序列间的调控关系;基于输出层模块根据第一主要特征信息和调控关系,生成第二主要特征信息,用于预测RNA序列的RNA基元位点,本发明专利技术实现了RNA基元位点的准确预测。

【技术实现步骤摘要】
基于卷积门控递归神经网络的RNA基元位点预测方法及系统
本专利技术属于RNA基元定位识别
,涉及基于卷积门控递归神经网络的RNA基元位点预测方法及系统。
技术介绍
基核糖核酸(RNA)是一种由DNA转录合成的生物大分子,主要功能是将DNA中遗传信息转化为具有特定生物功能的蛋白质。在基因表达的翻译阶段,RNA深度参与了遗传信息编解码、蛋白质合成、翻译调控等多个生物过程。RNA调控功能的发挥依赖于其自身与蛋白质的绑定,并且现有的研究已经证实RNA与蛋白质的绑定在细胞氧化应激反应、肠道分化、细胞极化、细胞周期调控以及肠道干细胞标志物表达等生物过程中发挥重要作用。研究人员将能够与RNA序列绑定的蛋白质称为RNA绑定蛋白质(RNABindingProtein,RBP),RNA序列中只有部分区域能够与RBP绑定,这部分区域被称为RNA-蛋白质绑定位点或RNAmotif。准确预测RNA与RBP的绑定位点能够帮助研究人员深入理解基因表达过程中的转录后调控机制及其与复杂生命活动的关系。尽管PAR-CLIP、CLIP-Seq等高通量测序技术的出现为RNA基元的鉴别提供了极大的便利,但是使用这些技术需要耗费大量的资源。此外,由于技术本身存在的缺陷,上述高通量测序技术产生的实验数据包含有假阳性信息、假阴性信息,研究人员同样需要耗费大量的时间从原始实验数据中识别剔除这些信息。另一方面,这些技术提供了大量经过验证的与RNA-蛋白质绑定相关的高通量数据,这些数据可以用作训练和测试预测模型的评估标准。如何快速准确地从实验数据中鉴别RNA基元位点已成为研究人员面临的巨大挑战。在图像识别、语音识别等领域,传统机器学习方法能够有效排除噪声信息干扰,准确实现任务目标,因此研究人员根据生物数据的特点对传统机器学习方法进行修改,利用改进后的方法对实验数据进行建模分析,预测RNA与蛋白质的绑定位点。例如,传统方法Oli从RNA序列数据中学习四核苷酸频率特征,利用支持向量机预测RNA与蛋白质绑定位点尽管GraphProt也是用支持向量机进行预测,但GraphProt在特征学习时同时使用了RNA序列特征和结构特征。实验结果表明,这些方法具有良好的预测性能,也再次证明利用改进后的机器学习方法对可靠实验数据进行建模分析得到的计算模型能够较好地完成RNA基元位点预测任务。深度学习模型具有优异的特征分析学习能力、泛化性能好等特性,其在自然语言处理、计算机视觉、语音识别等领域得到广泛应用。为了克服传统预测方法噪声敏感、时间复杂度高等缺陷,研究人员开始尝试使用基于深度学习的模型进行基因组序列分析任务。Babak等人提出的DeepBind模型是首个将卷积神经网络用于DNA/RNA序列特异性分析的深度学习模型,实验结果表明,该模型在相关任务中的性能优于现有的传统计算方法。Zhou等人提出的DeepSea模型使用多层卷积神经网络从序列数据中学习预测基因组序列非编码区变异的影响。与图像分类任务类似,基于深度学习的模型将基因组序列基元预测任务视为一个二分类问题,也就是对当前序列是否含有基元位点进行判别。RNA序列主要由A、C、G、U四种基本元素构成,因此上述模型使用独热编码(one-hot)将RNA序列转化为CNN能够处理的形式,然后利用CNN对输入的RNA数据进行建模分析,进而实现RNA基元位点的预测。虽然现有的基于深度学习的方法在RNA基元预测任务中取得了较好的效果,但是本专利技术不能忽视这些方法存在的缺点:1)不同RBP具有不同的长度,因此不同RBP与RNA序列绑定位点的长度也存在差异。但现有的方法在计算中并未考虑RBP的这种特性,仅使用固定长度的卷积核从RNA序列中学习基元特征。也就是说,现有的基于深度学习的模型在计算过程中会丢失一些有用的信息,可能影响模型的预测性能;2)RNA序列中不同基元位点间、基元位点与邻域均存在一定的关联性,但卷积神经网络只能学习基元位点的局部信息,无法充分学习上述关联信息。通过增加卷积层的方式增大CNN的感知域,在一定程度上增强了CNN对关联信息的学习能力,这种方式只能缓解关联信息缺失带来的影响,无法从根本上解决这个问题。
技术实现思路
为了解决这些问题,本专利技术提出了一种多尺度卷积门控递归神经网络模型(MSCGRU)用于RNA与蛋白质绑定位点的预测。针对不同RNA基元长度不同的问题,该模型使用多尺度卷积核来学习不同长度RNA基元的特征。针对现有模型关联信息缺失问题,该模型使用双向门控递归神经网络学习基元位点间及基元与邻域的关联信息。在31个CLIP-Seq数据集的测试结果表明,MSCGRU在RNA与蛋白质绑定位点预测任务中的性能优于传统方法Oli、GraphProt、以及基于深度学习的DeepBind与iDeepS方法。本专利技术提供基于卷积门控递归神经网络的RNA基元位点预测方法,包括以下步骤:S1.基于RNA序列的碱基,依据碱基的对应字母,构建RNA序列字母表数据集,通过采用独热编码的方法,依据RNA序列字母表数据集,构建RNA字符序列数据集,基于RNA序列字母表数据集和RNA字符序列数据集,构建RNA数字序列矩阵转换模型;S2.基于碱基的基元长度,获得基元长度数据集合,通过对RNA数字序列矩阵转换模型的矩阵元素相乘,获得矩阵元素特征值;S3.基于基元长度数据集合、矩阵元素特征值,通过选择基元长度数据集合的任一基元长度元素作为卷积核大小,依据模型激活函数,构建多尺度卷积模型;S4.基于碱基的基元与基元的上游子序列的第一调控关系,构建正向学习网络模型,基于基元与所述基元的下游子序列的第二调控关系,构建反向学习网络模型,依据正向学习网络模型和反向学习网络模型,构建双向门控递归神经网络模型;S5.通过第一激活函数构建第一全连接层,通过第二激活函数构建第二全连接层,基于第一全连接层和第二全连接层,构建输出模型;S6.将RNA数字序列矩阵转换模型与多尺度卷积模型的数据输入端连接,将多尺度卷积模型的数据输出端通过双向门控递归神经网络模型与输出模型连接,构建多尺度卷积门控递归神经网络模型,用于预测所述RNA序列的RNA基元位点。优选地,RNA序列字母表数据集包括字母表,字母表的大小为4;RNA字符序列数据集包括字符序列,字符序列的字符向量长度为4;通过字符序列,依据字符向量长度,构建参照矩阵,基于参照矩阵和RNA序列字母表数据集,构建RNA数字序列矩阵转换模型。优选地,RNA数字序列矩阵转换模型包括RNA数字序列,RNA数字序列的表达式为:RS=[C1,C2,C3,……,CL],Ci∈[1,4],i∈[1,L],L表示RNA序列长度;RNA数字序列矩阵转换模型的公式为:Ri=RM[ci],Ri∈RdR=[R1,R2,R3,.....,Rl],RRd×l其中,Ri表示从参考矩阵RM中获取的数字序列RS中的第i个元素ci对应的向量;R表示汇总Ri生成的一个大小为4×l的矩阵。优选地,多尺度卷积模型的表达式为:其中,Θ表示基元长本文档来自技高网
...

【技术保护点】
1.基于卷积门控递归神经网络的RNA基元位点预测方法,其特征包括以下步骤:/nS1.基于RNA序列的碱基,依据所述碱基的对应字母,构建RNA序列字母表数据集,通过采用独热编码的方法,依据所述RNA序列字母表数据集,构建RNA字符序列数据集,基于所述RNA序列字母表数据集和RNA字符序列数据集,构建RNA数字序列矩阵转换模型;/nS2.基于所述碱基的基元长度,获得基元长度数据集合,通过对所述RNA数字序列矩阵转换模型的矩阵元素相乘,获得矩阵元素特征值;/nS3.基于所述基元长度数据集合、矩阵元素特征值,通过选择基元长度数据集合的任一基元长度元素作为卷积核大小,依据模型激活函数,构建多尺度卷积模型;/nS4.基于所述碱基的基元与所述基元的上游子序列的第一调控关系,构建正向学习网络模型,基于所述基元与所述基元的下游子序列的第二调控关系,构建反向学习网络模型,依据所述正向学习网络模型和反向学习网络模型,构建双向门控递归神经网络模型;/nS5.通过第一激活函数构建第一全连接层,通过第二激活函数构建第二全连接层,基于所述第一全连接层和第二全连接层,构建输出模型;/nS6.将所述RNA数字序列矩阵转换模型与多尺度卷积模型的数据输入端连接,将所述多尺度卷积模型的数据输出端通过所述双向门控递归神经网络模型与所述输出模型连接,构建多尺度卷积门控递归神经网络模型,用于预测所述RNA序列的RNA基元位点。/n...

【技术特征摘要】
1.基于卷积门控递归神经网络的RNA基元位点预测方法,其特征包括以下步骤:
S1.基于RNA序列的碱基,依据所述碱基的对应字母,构建RNA序列字母表数据集,通过采用独热编码的方法,依据所述RNA序列字母表数据集,构建RNA字符序列数据集,基于所述RNA序列字母表数据集和RNA字符序列数据集,构建RNA数字序列矩阵转换模型;
S2.基于所述碱基的基元长度,获得基元长度数据集合,通过对所述RNA数字序列矩阵转换模型的矩阵元素相乘,获得矩阵元素特征值;
S3.基于所述基元长度数据集合、矩阵元素特征值,通过选择基元长度数据集合的任一基元长度元素作为卷积核大小,依据模型激活函数,构建多尺度卷积模型;
S4.基于所述碱基的基元与所述基元的上游子序列的第一调控关系,构建正向学习网络模型,基于所述基元与所述基元的下游子序列的第二调控关系,构建反向学习网络模型,依据所述正向学习网络模型和反向学习网络模型,构建双向门控递归神经网络模型;
S5.通过第一激活函数构建第一全连接层,通过第二激活函数构建第二全连接层,基于所述第一全连接层和第二全连接层,构建输出模型;
S6.将所述RNA数字序列矩阵转换模型与多尺度卷积模型的数据输入端连接,将所述多尺度卷积模型的数据输出端通过所述双向门控递归神经网络模型与所述输出模型连接,构建多尺度卷积门控递归神经网络模型,用于预测所述RNA序列的RNA基元位点。


2.如权利要求1所述基于卷积门控递归神经网络的RNA基元位点预测方法,其特征在于:
所述RNA序列字母表数据集包括字母表,所述字母表的大小为4;
所述RNA字符序列数据集包括字符序列,所述字符序列的字符向量长度为4;
通过所述字符序列,依据所述字符向量长度,构建参照矩阵,基于所述参照矩阵和所述RNA序列字母表数据集,构建所述RNA数字序列矩阵转换模型。


3.如权利要求2所述基于卷积门控递归神经网络的RNA基元位点预测方法,其特征在于:
所述RNA数字序列矩阵转换模型包括RNA数字序列,所述RNA数字序列的表达式为:RS=[C1,C2,C3,……,CL],Ci∈[1,4],i∈[1,L],L表示RNA序列长度;
所述RNA数字序列矩阵转换模型的公式为:
Ri=RM[ci],Ri∈Rd
R=[R1,R2,R3,.....,Rl],R∈Rd×l
其中,Ri表示从参考矩阵RM中获取的数字序列RS中的第i个元素ci对应的向量;R表示汇总Ri生成的一个大小为4×l的矩阵。


4.如权利要求1所述基于卷积门控递归神经网络的RNA基元位点预测方法,其特征在于,
所述多尺度卷积模型的表达式为:



其中,Θ表示基元长度的集合;j是Θ集合中的一个元素,代表当前卷积操作中卷积核的大小,符号表示矩阵元素相乘,α代表模型使用的激活函数,E表示选中的数据,Kj表示大小为j的卷积核,b表示一个卷积运算时的偏置项,i表示选中数据的起始位置,*表示选中数据的内容。


5.如权利要求1所述基于卷积门控递归神经网络的RNA基元位点预测系统,其特征在于,
所述输出模型的实现公式为:
h=max(0,WTx+b)



其中,x代表输入数据;W表示第一个全连接层的参数,WT是参数W的转置;b代表计算时使用的偏置项;h表示第一个全连接层的输出;p表示经过计算得出的概率。


6.如权利要求1-5任一权利要求所述的基于卷积门控递归神经网络的RNA基元位点预测系统,其特征在于,包括:
嵌入层模块、多尺度卷积层模块、双向门控递归神经网络层模块、输出层模块;
所述嵌入层模块通过所述多尺度卷积层模块与所述双向门控递归神经网络层模块连接;
所述双向门控递归神经网络层模块与所述输出层模块连接;
所述嵌入层模块用于将所述RNA序列转化为...

【专利技术属性】
技术研发人员:黄德双申圳
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1