基于卷积门控递归神经网络的RNA基元位点预测方法及系统技术方案

技术编号：28627918 阅读：34 留言：0更新日期：2021-05-28 16:24

本发明专利技术公开了基于卷积门控递归神经网络的RNA基元位点预测方法及系统，包括嵌入层模块、多尺度卷积层模块、双向门控递归神经网络层模块、输出层模块；系统通过嵌入层模块将RNA序列转化为RNA数字序列；基于多尺度卷积层模块从RNA数字序列中学习不同长度基元的局部绑定特征信息并从中挑选出第一主要特征信息；通过双向门控递归神经网络层模块学习第一主要特征信息中的RNA数字序列的当前基元位点与其上下游子序列间的调控关系；基于输出层模块根据第一主要特征信息和调控关系，生成第二主要特征信息，用于预测RNA序列的RNA基元位点，本发明专利技术实现了RNA基元位点的准确预测。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积门控递归神经网络的RNA基元位点预测方法及系统
本专利技术属于RNA基元定位识别
，涉及基于卷积门控递归神经网络的RNA基元位点预测方法及系统。
技术介绍
基核糖核酸(RNA)是一种由DNA转录合成的生物大分子，主要功能是将DNA中遗传信息转化为具有特定生物功能的蛋白质。在基因表达的翻译阶段，RNA深度参与了遗传信息编解码、蛋白质合成、翻译调控等多个生物过程。RNA调控功能的发挥依赖于其自身与蛋白质的绑定，并且现有的研究已经证实RNA与蛋白质的绑定在细胞氧化应激反应、肠道分化、细胞极化、细胞周期调控以及肠道干细胞标志物表达等生物过程中发挥重要作用。研究人员将能够与RNA序列绑定的蛋白质称为RNA绑定蛋白质(RNABindingProtein，RBP)，RNA序列中只有部分区域能够与RBP绑定，这部分区域被称为RNA-蛋白质绑定位点或RNAmotif。准确预测RNA与RBP的绑定位点能够帮助研究人员深入理解基因表达过程中的转录后调控机制及其与复杂生命活动的关系。尽管PAR-CLIP、CLIP-Seq等高通量测序技术的出现为RNA基元的鉴别提供了极大的便利，但是使用这些技术需要耗费大量的资源。此外，由于技术本身存在的缺陷，上述高通量测序技术产生的实验数据包含有假阳性信息、假阴性信息，研究人员同样需要耗费大量的时间从原始实验数据中识别剔除这些信息。另一方面，这些技术提供了大量经过验证的与RNA-蛋白质绑定相关的高通量数据，这些数据可以用作训练和测试预测模型的评估标准。如何快速准确地从实验数据中鉴别RN...

【技术保护点】
1.基于卷积门控递归神经网络的RNA基元位点预测方法，其特征包括以下步骤：/nS1.基于RNA序列的碱基，依据所述碱基的对应字母，构建RNA序列字母表数据集，通过采用独热编码的方法，依据所述RNA序列字母表数据集，构建RNA字符序列数据集，基于所述RNA序列字母表数据集和RNA字符序列数据集，构建RNA数字序列矩阵转换模型；/nS2.基于所述碱基的基元长度，获得基元长度数据集合，通过对所述RNA数字序列矩阵转换模型的矩阵元素相乘，获得矩阵元素特征值；/nS3.基于所述基元长度数据集合、矩阵元素特征值，通过选择基元长度数据集合的任一基元长度元素作为卷积核大小，依据模型激活函数，构建多尺度卷积模型；/nS4.基于所述碱基的基元与所述基元的上游子序列的第一调控关系，构建正向学习网络模型，基于所述基元与所述基元的下游子序列的第二调控关系，构建反向学习网络模型，依据所述正向学习网络模型和反向学习网络模型，构建双向门控递归神经网络模型；/nS5.通过第一激活函数构建第一全连接层，通过第二激活函数构建第二全连接层，基于所述第一全连接层和第二全连接层，构建输出模型；/nS6.将所述RNA数字序列矩阵转...

【技术特征摘要】
1.基于卷积门控递归神经网络的RNA基元位点预测方法，其特征包括以下步骤：
S1.基于RNA序列的碱基，依据所述碱基的对应字母，构建RNA序列字母表数据集，通过采用独热编码的方法，依据所述RNA序列字母表数据集，构建RNA字符序列数据集，基于所述RNA序列字母表数据集和RNA字符序列数据集，构建RNA数字序列矩阵转换模型；
S2.基于所述碱基的基元长度，获得基元长度数据集合，通过对所述RNA数字序列矩阵转换模型的矩阵元素相乘，获得矩阵元素特征值；
S3.基于所述基元长度数据集合、矩阵元素特征值，通过选择基元长度数据集合的任一基元长度元素作为卷积核大小，依据模型激活函数，构建多尺度卷积模型；
S4.基于所述碱基的基元与所述基元的上游子序列的第一调控关系，构建正向学习网络模型，基于所述基元与所述基元的下游子序列的第二调控关系，构建反向学习网络模型，依据所述正向学习网络模型和反向学习网络模型，构建双向门控递归神经网络模型；
S5.通过第一激活函数构建第一全连接层，通过第二激活函数构建第二全连接层，基于所述第一全连接层和第二全连接层，构建输出模型；
S6.将所述RNA数字序列矩阵转换模型与多尺度卷积模型的数据输入端连接，将所述多尺度卷积模型的数据输出端通过所述双向门控递归神经网络模型与所述输出模型连接，构建多尺度卷积门控递归神经网络模型，用于预测所述RNA序列的RNA基元位点。

2.如权利要求1所述基于卷积门控递归神经网络的RNA基元位点预测方法，其特征在于:
所述RNA序列字母表数据集包括字母表，所述字母表的大小为4；
所述RNA字符序列数据集包括字符序列，所述字符序列的字符向量长度为4；
通过所述字符序列，依据所述字符向量长度，构建参照矩阵，基于所述参照矩阵和所述RNA序列字母表数据集，构建所述RNA数字序列矩阵转换模型。

3.如权利要求2所述基于卷积门控递归神经网络的RNA基元位点预测方法，其特征在于：
所述RNA数字序列矩阵转换模型包括RNA数字序列，所述RNA数字序列的表达式为：RS＝[C1,C2,C3,……,CL],Ci∈[1,4],i∈[1,L],L表示RNA序列长度；
所述RNA数字序列矩阵转换模型的公式为：
Ri＝RM[ci]，Ri∈Rd
R＝[R1，R2，R3，.....，Rl]，R∈Rd×l
其中，Ri表示从参考矩阵RM中获取的数字序列RS中的第i个元素ci对应的向量；R表示汇总Ri生成的一个大小为4×l的矩阵。

4.如权利要求1所述基于卷积门控递归神经网络的RNA基元位点预测方法，其特征在于，
所述多尺度卷积模型的表达式为：

其中，Θ表示基元长度的集合；j是Θ集合中的一个元素，代表当前卷积操作中卷积核的大小，符号表示矩阵元素相乘，α代表模型使用的激活函数，E表示选中的数据，Kj表示大小为j的卷积核，b表示一个卷积运算时的偏置项，i表示选中数据的起始位置，*表示选中数据的内容。

5.如权利要求1所述基于卷积门控递归神经网络的RNA基元位点预测系统，其特征在于，
所述输出模型的实现公式为：
h＝max(0，WTx+b)

其中，x代表输入数据；W表示第一个全连接层的参数，WT是参数W的转置；b代表计算时使用的偏置项；h表示第一个全连接层的输出；p表示经过计算得出的概率。

6.如权利要求1-5任一权利要求所述的基于卷积门控递归神经网络的RNA基元位点预测系统，其特征在于，包括：
嵌入层模块、多尺度卷积层模块、双向门控递归神经网络层模块、输出层模块；
所述嵌入层模块通过所述多尺度卷积层模块与所述双向门控递归神经网络层模块连接；
所述双向门控递归神经网络层模块与所述输出层模块连接；
所述嵌入层模块用于将所述RNA序列转化为...

【专利技术属性】
技术研发人员：黄德双，申圳，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人