一种RNA二级结构的预测方法技术

技术编号：21609093 阅读：30 留言：0更新日期：2019-07-13 19:28

本发明专利技术公开了一种RNA二级结构的预测方法，本发明专利技术通过对PDB数据集进行数据预处理，将其分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型，得到一个目标函数，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明专利技术采用监督学习算法，利用人工智能的方法对RNA二级结构进行预测，大大的提高了预测效率，并且预测结果较为准确。

A Prediction Method of RNA Secondary Structure

全部详细技术资料下载

【技术实现步骤摘要】
一种RNA二级结构的预测方法
本专利技术涉及生物研究领域，特别涉及一种RNA二级结构的预测方法。
技术介绍
核糖核苷酸分子RNA作为生物体内一种大分子，它是存在于生物体中重要的物质，不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行，并且在DNA和蛋白质合成中扮演着重要的角色。研究发现，对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能，这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系，从而了解生物体功能并且了解和治疗疾病。RNA分子结构由三部分结构组成：一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用，扭曲、折叠等等在空间中形成的稳定结构，因此RNA二级结构的预测对于RNA结构来说起着重要的作用，如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。传统地预测RNA二级结构的方法都是用实验物理、化学或计算机等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点，所以用实验物理、化学实验的方法预测其二级结构相对耗时长、成本高。而利用基于比较序列分析法和基于最小自由能法的计算机来预测这些空间结构，较传统方法虽然提高了预测的效率，但对于RNA一级序列基数较长的二级结构来说，其预测的时间和费用也远远增加。
技术实现思路
本专利技术的目的在于，提供一种RNA二级结构的预测方法。本专利技术可以对RNA二级结构进行预测，预测结果较为准确，预测效率大大提高。本专利技术的技术方案：一种RNA二级结构的预测方法，将PDB数据集进行数据预处理，分为RNA一级序列数据集和RNA二...

【技术保护点】
1.一种RNA二级结构的预测方法，其特征在于：将PDB数据集进行数据预处理，分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型中，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。

【技术特征摘要】
1.一种RNA二级结构的预测方法，其特征在于：将PDB数据集进行数据预处理，分为RNA一级序列数据集和RNA二级结构数据集；再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理，将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型中，并将RNA二级结构数据集作为机器学习模型的输出标签，对机器学习模型进行训练和测试；最后利用训练和测试后的机器学习模型进行RNA二级结构预测。2.根据权利要求1所述的RNA二级结构的预测方法，其特征在于：所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种，其中各碱基和二级制编码间的对应关系为：A-1000、C-0100、G-0010、U-0001。3.根据权利要求2所述的RNA二级结构的预测方法，其特征在于：所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入，通过移动窗口的中心碱基的位置得到多个样本输入。4.根据权利要求1所述的RNA二级结构的预测方法，其特征在于：所述的监督学习算法是随机森林算法或支持向量机算法。5.根据权利要求1所述的RNA二级结构的预测方法，其特征在于：所述特征输入还包括远程RNA区域的分子之间存在的碱基互补配...

【专利技术属性】
技术研发人员：孙婷婷，苏静杰，
申请(专利权)人：浙江科技学院，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人