用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统技术方案

技术编号:24253179 阅读:45 留言:0更新日期:2020-05-23 00:26
本发明专利技术提供了一种构建用于预测蛋白质‑RNA相互作用结合位点模型的方法和系统,与其对应的还包括使用该方法预测蛋白质‑RNA相互作用结合位点的方法和系统。其使用RNA与蛋白质结合位点处及上下游的序列特征以及测定的RNA结构特征来训练深度学习模型,并使用所述模型对蛋白质‑RNA相互作用结合位点进行预测。在所述特征的提取过程中分别使用了基于卷积神经网络构建的基序获取模块和基于循环神经网络构建的上下文语义获取模块。本发明专利技术中训练出的模型在判断准确度和计算时间以及应用平台的广泛性方面都相比于现有技术有着显著进步。

Methods and systems for predicting protein RNA interaction binding sites

【技术实现步骤摘要】
用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统
本专利技术涉及RNA-蛋白质相互作用预测技术,尤其涉及用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及对应的使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统。
技术介绍
目前基于深度学习技术对RNA-蛋白质相互作用预测的方法主要有DeepBind(参见Alipanahi,Betal.,(2015).NatureBiotechnology33,831–838.)、Deepnet-rbp(参见Zhang,Setal.,(2016).NucleicAcidsRes44,e32–e32)和iDeepE(参见Pan,Xetal.,(2018).Bioinformatics34,3427–3436)等。现有技术DeepBind方法,该模型结构使用卷积神经网络,基于RNA的序列数据进行训练。由于提出时间较早,模型结构简单,因此建模能力不足,准确率较低。而且仅使用RNA与蛋白质结合的序列信息,未考虑RNA的结构信息。另一个现有技术Deepnet-rbp方法,该方法整合RNA与蛋白质结合的序列信息,并引入“预测”(非真实实验数据)的RNA三级结构信息,使用深度信念网络进行建模,准确率有了一定的提升,但仍较低。另外预测RNA三级结构信息过程非常耗时,因此模型训练时间也较长。另一个现有技术iDeepE方法,训练了两个分别基于全局序列和局部序列的卷积神经网络模型,并将这两个模型的预测结果求平均作为最终预测值。虽然其准确率相对有提升,但是大幅提升了训练模型的复杂程度,容易导致过拟合,同时也会大大增加了该模型在计算机上训练的计算时间。另外,Deepnet-rbp方法使用的RNA结构为预测的体外结构,并非来自实验中的真实体内数据,从而不足以捕捉体内条件下的真实RNA结构信息,因此模型的预测准确度也相应受到影响。
技术实现思路
因此本专利技术实施例的目的在于克服上述现有技术的缺陷,提供一种用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统,对蛋白质-RNA相互作用结合位点进行有效预测。根据本专利技术的一方面,本专利技术提供一种构建用于预测蛋白质-RNA相互作用结合位点的模型的方法,包括以下步骤:步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;步骤5、利用所述整体特征映射组合,在训练数据集上,基于深度学习方法进行模型训练,得到所述蛋白质-RNA相互作用结合位点的预测模型。作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的优选方案,步骤1所述测定的所述蛋白质-RNA结合位点的结构数据是RNA结构组学测定实验技术所产生的结构数据。作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的更优选方案,所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS、icSHAPE结构数据。作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的另一优选方案,步骤2所述基于卷积神经网络CNN方法的步骤包括:步骤201,从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据,将其分别左右扩增到相同的长度,并对所述序列数据进行编码;步骤202,将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数对其进行激活,最后将其传递到最大池化层分别进行最大池化,输出结构的特征映射和序列的特征映射;步骤203,将所述的结构特征映射和序列特征映射对应相加而融合,并且对融合后的特征映射组合进行正则化处理,之后传递到全连接层,最后使用激活函数对其进行激活,输出完整的基序特征映射组合。作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的另一优选方案,步骤3所述基于循环神经网络RNN方法的步骤包括:步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据,以及对应的结构数据,分别将其左右扩增到相同的长度,并对所述结合位点及其上下游区域的序列数据进行编码;步骤302,将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数进行激活,最后传递到最大池化层分别进行最大池化,提取出结合位点及其上下游区域的结构特征映射和序列特征映射;步骤303,将所述的结合位点及其上下游区域结构的特征映射和序列的特征映射进行对应相加融合,并将融合的特征映射传递到采用了循环神经网络方法的Bi-LSTM层计算模型中进行序列上下文语义特征的学习,输出上下文语义特征映射;步骤304,将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块,输出完整的上下文语义特征映射组合。在上述方法中进一步优选,步骤2或步骤3所述的编码采用如下公式:其中,si,j表示待编码的序列数据,Mi,j表示编码后的输出值。作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的又一优选方案,步骤5所述的基于深度学习方法包括使用均方误差损失进行回归训练,或使用Softmax激活函数和交叉熵损失进行分类训练。根据本专利技术的另一方面,本专利技术提供一种构建用于预测蛋白质-RNA相互作用结合位点模型的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现上文任一所述的构建用于预测蛋白质-RNA相互作用结合位点模型的方法。根据本专利技术的另一方面,本专利技术进一步提供一种用于预测蛋白质-RNA相互作用结合位点的方法,包括:步骤1、将待测的RNA转录本的序列中特定长度的子序列做为潜在的RNA结合蛋白的结合位点,获得潜在的结合位点处及其上下游区域的序列数据,以及所述潜在结合位点及其上下游区域的结构数据,将所述序列数据和结构数据输入通过前述任一项构建的针对所述RNA结合蛋白的模型。步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;步骤本文档来自技高网
...

【技术保护点】
1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法,其中包括如下步骤:/n步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;/n步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;/n步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;/n步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;/n步骤5、利用所述整体特征映射组合,在训练数据集上基于深度学习方法进行模型训练,得到蛋白质-RNA相互作用结合位点预测模型。/n

【技术特征摘要】
1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法,其中包括如下步骤:
步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、利用所述整体特征映射组合,在训练数据集上基于深度学习方法进行模型训练,得到蛋白质-RNA相互作用结合位点预测模型。


2.根据权利要求1所述的方法,其中步骤1所述测定的所述蛋白质-RNA相互作用的结合位点的结构数据是RNA结构组学测定实验技术所产生的结构数据。


3.根据权利要求2所述的方法,其中所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS或者icSHAPE结构数据。


4.根据权利要求1所述的方法,其中所述步骤2包括:
步骤201,从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据,将其分别左右扩增到相同的长度,并对所述序列数据进行编码;
步骤202,将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数对其进行激活,最后将其传递到最大池化层分别进行最大池化,输出结构的特征映射和序列的特征映射;
步骤203,将所述的结构特征映射和序列特征映射对应相加而融合,并且对融合后的特征映射组合进行正则化处理,之后传递到全连接层,最后使用激活函数对其进行激活,输出完整的基序特征映射组合。


5.根据权利要求1所述的方法,其中所述步骤3包括:
步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据以及对应的结构数据,分别将其左右扩增到相同的长度,并对所述结合位点及其上下游区域的序列数据进行编码;
步骤302,将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数进行激活,最后传递到最大池化层分别进行最大池化,提取出结合位点及其上下游区域的序列特征映射和结构特征映射;
步骤303,将所述的结合位点及其上下游区域的序列和结构的特征映射进行对应相加融合,并将融合的特征映射传递到采用了循环神经网络方法的Bi-LSTM层计算模...

【专利技术属性】
技术研发人员:吴杨杨瑞赵屹
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1