一种RNA二级结构的预测方法技术

技术编号:21609093 阅读:30 留言:0更新日期:2019-07-13 19:28
本发明专利技术公开了一种RNA二级结构的预测方法,本发明专利技术通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明专利技术采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。

A Prediction Method of RNA Secondary Structure

【技术实现步骤摘要】
一种RNA二级结构的预测方法
本专利技术涉及生物研究领域,特别涉及一种RNA二级结构的预测方法。
技术介绍
核糖核苷酸分子RNA作为生物体内一种大分子,它是存在于生物体中重要的物质,不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行,并且在DNA和蛋白质合成中扮演着重要的角色。研究发现,对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能,这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系,从而了解生物体功能并且了解和治疗疾病。RNA分子结构由三部分结构组成:一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用,扭曲、折叠等等在空间中形成的稳定结构,因此RNA二级结构的预测对于RNA结构来说起着重要的作用,如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。传统地预测RNA二级结构的方法都是用实验物理、化学或计算机等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点,所以用实验物理、化学实验的方法预测其二级结构相对耗时长、成本高。而利用基于比较序列分析法和基于最小自由能法的计算机来预测这些空间结构,较传统方法虽然提高了预测的效率,但对于RNA一级序列基数较长的二级结构来说,其预测的时间和费用也远远增加。
技术实现思路
本专利技术的目的在于,提供一种RNA二级结构的预测方法。本专利技术可以对RNA二级结构进行预测,预测结果较为准确,预测效率大大提高。本专利技术的技术方案:一种RNA二级结构的预测方法,将PDB数据集进行数据预处理,分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。上述的RNA二级结构的预测方法,所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种,其中各碱基和二级制编码间的对应关系为:A-1000、C-0100、G-0010、U-0001。前述的RNA二级结构的预测方法,所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入,通过移动窗口的中心碱基的位置得到多个样本输入。前述的RNA二级结构的预测方法,所述特征输入还包括远程RNA区域的分子间的碱基互补配对作用,即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量,表示为RNA长程相关性。前述的RNA二级结构的预测方法,所述RNA一级序列中的各个碱基记作1,2,3,...,n,根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示,记作i-j;其中,碱基配对i-j必须满足:(1)配对碱基i-j之间必须按照C-G、A-U或者G-U的规则来配对,它们之间分别由三个,两个或者一个氢键形成配对;(2)每个碱基最多只能和另一个碱基配对,即i对应的j只有一个;(3)在一条RNA序列链上,距离太近的碱基不允许配对,即对于i-j而言,j-i≥4;(4)一个RNA二级结构中的两条配对碱基不能交叉配对,配对的k-l全在i-j里面或者全部在i-j外面,即如果i<j,k<l,i<k,则i<k<l<j或者i<j<k<1。前述的RNA二级结构的预测方法,所述在RNA长程相关性中选取连续n条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中。前述的RNA二级结构的预测方法,所述n=4-6。与现有技术比较,本专利技术具有以下有益效果:1、本专利技术通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本专利技术采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。2、本专利技术通过优化了RNA一级序列的编码方式,并将编码后的RNA一级序列作为特征输入至机器学习模型中,在特征输入的过程中选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入,通过移动窗口的中心碱基的位置得到多个样本输入,解决了RNA一级序列由于太长而难以输入机器学习模型的问题,大大的提高了RNA二级结构的预测效率。3、本专利技术还在特征输入的过程中加入RNA长程相关性这一特征,并选取连续n条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中,由于RNA长程相关性中含有RNA真实的生物信息结构,并通过调整n的数值,从而进一步提高了RNA二级结构预测的精确率。附图说明:图1是本专利技术从PDB数据中查询的其中一个RNA信息’2JTP.pdb’中的部分示例;图2是本专利技术’2JTP.pdb’对应得到的二级结构;图3是本专利技术实施例1中RNA二级结构预测精确度柱形图;图4是本专利技术实施例1中RNA二级结构预测召回率柱形图;图5是本专利技术的1A9L.pdb中的RNA长程相关性的特征向量示意图;图6是本专利技术实施例2中RNA二级结构预测精确度柱形图;图7是本专利技术实施例2中RNA二级结构预测召回率柱形图;图8是本专利技术实施例3中调整窗口数和RNA长程相关性中的碱基对数来测试RNA二级结构的总体预测精度的结果示意图;图9是本专利技术的“1A9L.pdb”的RNA二级结构图;图10是本专利技术在没有RNA长程相关性中的碱基配对这一特征的RNA二级结构预测示意图;图11是本专利技术添加RNA长程相关性中的碱基配对这一特征的RNA二级结构预测示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的说明,但并不作为对本专利技术限制的依据。实施例1:一种RNA二级结构的预测方法:从PDB数据库官网下载得到PDB数据集,如图1所示为下载得到的PDB数据中其中一个RNA信息’2JTP.pdb’中的部分示例,PDB数据库中包含有RNA序列信息、RNA的一级序列和三维空间坐标三个部分,图中可以看出’SEQRES’中就记录着RNA的一级序列,先对PDB数据集进行数据预处理,通过正则表达式的方式将一级序列提取出来,其中有部分数据是有除A、C、G、U的其他字符的,这时需要清洗掉这些字符得到正确的RNA一级序列。用已知的RNA二级结构预测软件RNAview通过在Linux系统下批量预测出每一个一级序列对应的RNA二级结构,并将维度过高的RNA三级结构剔除,只留下二级结构和部分假结结构。’2JTP.pdb’对应得到的二级结构如图2所示,’+/+’代表双键稳定的碱基对,’-/-’代表单键易断的碱基对,最右边一列希腊数字对应’+/+’或本文档来自技高网...

【技术保护点】
1.一种RNA二级结构的预测方法,其特征在于:将PDB数据集进行数据预处理,分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型中,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。

【技术特征摘要】
1.一种RNA二级结构的预测方法,其特征在于:将PDB数据集进行数据预处理,分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型中,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。2.根据权利要求1所述的RNA二级结构的预测方法,其特征在于:所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种,其中各碱基和二级制编码间的对应关系为:A-1000、C-0100、G-0010、U-0001。3.根据权利要求2所述的RNA二级结构的预测方法,其特征在于:所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入,通过移动窗口的中心碱基的位置得到多个样本输入。4.根据权利要求1所述的RNA二级结构的预测方法,其特征在于:所述的监督学习算法是随机森林算法或支持向量机算法。5.根据权利要求1所述的RNA二级结构的预测方法,其特征在于:所述特征输入还包括远程RNA区域的分子之间存在的碱基互补配...

【专利技术属性】
技术研发人员:孙婷婷苏静杰
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1