【技术实现步骤摘要】
用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统
本专利技术涉及RNA-蛋白质相互作用预测技术,尤其涉及用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及对应的使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统。
技术介绍
目前基于深度学习技术对RNA-蛋白质相互作用预测的方法主要有DeepBind(参见Alipanahi,Betal.,(2015).NatureBiotechnology33,831–838.)、Deepnet-rbp(参见Zhang,Setal.,(2016).NucleicAcidsRes44,e32–e32)和iDeepE(参见Pan,Xetal.,(2018).Bioinformatics34,3427–3436)等。现有技术DeepBind方法,该模型结构使用卷积神经网络,基于RNA的序列数据进行训练。由于提出时间较早,模型结构简单,因此建模能力不足,准确率较低。而且仅使用RNA与蛋白质结合的序列信息,未考虑RNA的结构信息。另一个现有技术Deepnet-rbp方法,该方法整合RNA与蛋白质结合的序列信息,并引入“预测”(非真实实验数据)的RNA三级结构信息,使用深度信念网络进行建模,准确率有了一定的提升,但仍较低。另外预测RNA三级结构信息过程非常耗时,因此模型训练时间也较长。另一个现有技术iDeepE方法,训练了两个分别基于全局序列和局部序列的卷积神经网络模型,并将这两个模型的预测结果求平均 ...
【技术保护点】
1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法,其中包括如下步骤:/n步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;/n步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;/n步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;/n步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;/n步骤5、利用所述整体特征映射组合,在训练数据集上基于深度学习方法进行模型训练,得到蛋白质-RNA相互作用结合位点预测模型。/n
【技术特征摘要】
1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法,其中包括如下步骤:
步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、利用所述整体特征映射组合,在训练数据集上基于深度学习方法进行模型训练,得到蛋白质-RNA相互作用结合位点预测模型。
2.根据权利要求1所述的方法,其中步骤1所述测定的所述蛋白质-RNA相互作用的结合位点的结构数据是RNA结构组学测定实验技术所产生的结构数据。
3.根据权利要求2所述的方法,其中所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS或者icSHAPE结构数据。
4.根据权利要求1所述的方法,其中所述步骤2包括:
步骤201,从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据,将其分别左右扩增到相同的长度,并对所述序列数据进行编码;
步骤202,将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数对其进行激活,最后将其传递到最大池化层分别进行最大池化,输出结构的特征映射和序列的特征映射;
步骤203,将所述的结构特征映射和序列特征映射对应相加而融合,并且对融合后的特征映射组合进行正则化处理,之后传递到全连接层,最后使用激活函数对其进行激活,输出完整的基序特征映射组合。
5.根据权利要求1所述的方法,其中所述步骤3包括:
步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据以及对应的结构数据,分别将其左右扩增到相同的长度,并对所述结合位点及其上下游区域的序列数据进行编码;
步骤302,将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数进行激活,最后传递到最大池化层分别进行最大池化,提取出结合位点及其上下游区域的序列特征映射和结构特征映射;
步骤303,将所述的结合位点及其上下游区域的序列和结构的特征映射进行对应相加融合,并将融合的特征映射传递到采用了循环神经网络方法的Bi-LSTM层计算模...
【专利技术属性】
技术研发人员:吴杨,杨瑞,赵屹,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。