【技术实现步骤摘要】
一种基于深度卷积神经网络的RNA
‑
蛋白质结合位点预测方法
[0001]本专利技术属于生物信息学领域,涉及一种基于深度卷积神经网络的RNA
‑
蛋白质结合位点预测方法,其中包括卷积神经网络和RNA序列数据处理等技术。
技术介绍
[0002]RNA结合蛋白 (以下简称RBPs) 在许多生物过程中发挥关键作用,例如:基因调控、mRNA定位等。一些RBPs的突变可能会导致人类疾病。例如:RBPs FUS和TDP
‑
43的突变可导致肌萎缩性侧索硬化症。因此,解码RBPs可以对许多生物学机制有更深入的见解。
[0003]通过实验的方法检测RBPs耗时且昂贵。使用从现有注释知识中学习到的模式来计算预测RBPs是一种快速的方法。许多的计算方法已经被提出,神经网络和支持向量机等相关方法已经被成功的应用于预测RBPs。
[0004]本专利技术最重要的创新点是提出了一种新的提取RNA序列结合信息的方法,即通过不同长度的窗口分别处理RNA序列,使得模型可以提取更丰富的序列结合信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度卷积神经网络的RNA
‑
蛋白质结合位点预测方法,包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程,其具体步骤如下:步骤1、为了从RNA序列中提取更多的结合信息,需要使用不同长度的窗口分别处理RNA序列,因此,需要首先确定不同的窗口长度;步骤2、使用不同长度的窗口分别处理RNA序列;对于不等长的RNA序列,当窗口长度大于RNA序列时,使用补足碱基N把RNA序列填充到窗口长度;当窗口长度小于RNA序列时,根据窗口长度把RNA序列分割成多个有部分重叠的等长子序列,子序列不足的RNA序列使用全是补足碱基N的子序列填充;步骤3、把步骤2中使用不同长度的窗口分别处理好的RNA序列数据通过单热编码的方式编码成多个矩阵;步骤4、把步骤3中生成的多个单热编码矩阵作为卷积神经网络的输入,训练多个卷积神经网络模型;步骤5、保存训练好的多个卷积神经网络模型;步骤6、使用步骤5中保存好的模型来预测输入的RNA序列数据。2.根据权利要求1所述的一种基于卷积神经网络的RNA
‑
蛋白质结合位点预测方法,步骤1的实现过程如下:确定处理RNA序列所使用的不同窗口长度:将501个核苷酸的长度作为初始窗口长度MaxL;其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍;考虑到模型的预测性能以及模型训练的和测试时间,X的值确定为50,窗口的最小长度MinL为101个核苷酸;窗口的个数P根据公式 (1) 确定:不同窗口的长度W根据公式 (2) 确定:其中,i是窗口长度编号,最终产生P个不同长度的窗口。3.根据权利要求1所述的一种基于卷积神经网络的RNA
‑
蛋白质结合位点预测方法,步骤2的实现过程如下:使用步骤1中产生的P个不同长度的窗口分别处理RNA序列;根据L1计算卷积神经网络的输入频道数量Q1,根据L2计算卷积神经网络的输入频道数量Q2;例如:当窗口长度大于L1时,根据公式 (3) 计算Q
1 = 1,即卷积神经网络的输入频道数量是1,使用补足碱基N把L1填充到窗口长度作为一个频道;此时,窗口长度必定大于L2,根据公式 (3) 计算Q
2 = 1,使用补足碱基N把L2填充到窗口长度作为一个频道;当窗口长度小于L1时,把L1根据窗口长度分割成Q1个有部分重叠的等长子序列,根据下面的公式 (3) 计算Q1;L2也根据窗口长度分割...
【专利技术属性】
技术研发人员:潘正森,周树森,邹海林,柳婵娟,臧睦君,刘通,王庆军,
申请(专利权)人:鲁东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。