当前位置: 首页 > 专利查询>中山大学专利>正文

基于Xgboost的全基因组RNA二级结构预测方法技术

技术编号:20122765 阅读:21 留言:0更新日期:2019-01-16 12:56
本发明专利技术提供基于Xgboost的全基因组RNA二级结构预测方法,包括:获取RNA序列和RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本;将正负样本组合成的样本数据集划分为训练集和测试集,将训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。利用本发明专利技术得到RNA在形成二级结构时,每一个碱基位点会形成配对的概率分数,根据概率分数,能为下一步二级结构的形成提供判断依据。

Prediction of Secondary Structure of Genome-wide RNA Based on Xgboost

The present invention provides a method for predicting the secondary structure of whole genome RNA based on Xgboost, which includes: obtaining the possibility value of pairing base sites in RNA sequence and RNA sequence; using the sequence fragments formed by the combination of base sites with high probability value and a certain length of base sites upstream and downstream as positive samples; and using the base with low probability value and the sequence formed by the combination of base sites with a certain length of base sites upstream and downstream as positive samples. Column fragments are used as negative samples; the sample data set composed of positive and negative samples is divided into training set and test set. The training set and test set are loaded into machine learning model based on Xgboost algorithm, and the machine learning model is trained and tested. The secondary structure of RNA is predicted by the machine learning model after training and testing. When RNA forms secondary structure, each base site will form a pairing probability score. According to the probability score, it can provide a judgment basis for the formation of secondary structure in the next step.

【技术实现步骤摘要】
基于Xgboost的全基因组RNA二级结构预测方法
本专利技术涉及生物信息学研究领域,具体涉及基于Xgboost的全基因组RNA二级结构预测方法。
技术介绍
RNA二级结构预测是分子生物学的一个重要研究领域,对于推动生命科学的发展具有极其重要的意义。RNA分子结构由三级结构组成:一级结构、二级结构、三级结构。RNA二级结构是指RNA序列由自身回折形成的茎环结构,是一种介于一级结构和三级结构之间的结构,且存储较多高级结构信息,因此RNA二级结构的研究成为生物信息学领域的重要研究问题。二级结构的确定主要有两种方法:物理化学的实验方法和数学计算的预测方法。实验方法主要包括X射线晶体衍射和核磁共振(NMR)。虽然实验方法得到的结果精确,但由于RNA分子降解速度快,难以结晶,故通过等实验方法测定RNA分子的结构很不容易,费时费力,代价高昂,无法满足今天海量RNA二级结构预测的需求。另外实验方法只能测定包含较少碱基的RNA序列的二级结构,而面对分子量较大的RNA时,实验方法的精确度会急剧下降。为了解决上述实验方法的弊端,人们开始着手借助数学计算方法,并结合计算机从理论上去预测RNA的二级结构,然后做进一步的验证。当只给定RNA的一级序列而缺少先验知识,传统的RNA二级结构预测方法一般采用最小自由能模型。该模型假设所有RNA都会折叠成一个具有最小自由能的二级结构,而二级结构中的每段模体(motif)都有相应的自由能计算方法,一般茎区的自由能为负值,环区自由能为正,茎区越长其自由能越小。因此可以近似的认为,配对的碱基使自由能降低,没有形成配对的碱基则会使自由能升高。申请号为CN200910218023.9的专利公开了基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,属生物信息学研究领域,该专利技术将RNA序列重新编码,使RNA序列以编码序列的形式存储于SRAM中,并根据匹配表得到长度为n的茎区集合,对所有长度为n的茎区采用向右延伸的策略得到所有长度大于n的茎区集合,将得出的相应于RNA序列的所有可能的茎区集合存储于SDRAM中等待调用,然后通过ARM控制芯片随机选取某一茎区作为蚁群算法的初始结点,并利用轮盘赌的策略选择下一茎区,直至可选择的茎区集合为空,最后计算每只蚂蚁相应的二级结构的最小自由能,记录并更新能量最小的二级结构,按照给定的规则更新茎区之间的信息素值,并再次选取初始结点进行循环运算,直至达到给定的迭代步数或满足循环退出的条件,以括号法的模式输出RNA序列二级结构到LCD中,最终得到自由能最小的二级结构。但是,实验证明,真实结构往往不是自由能最小的二级结构。而且,自由能迄今为止还没有完全精确的计算规则。虽然可人为设定一个阈值将目标输出。但实际上,人为阈值设定,往往会带来输出目标过多或过少的问题,从而极大影响准确率等。
技术实现思路
为解决上述问题,本专利技术提供基于Xgboost的全基因组RNA二级结构预测方法,该方法中算法的准确性和运算效率就会得到很大的提高。该技术方案为:基于Xgboost的全基因组RNA二级结构预测方法,包括步骤:获取RNA序列和所述RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。本专利技术使用机器学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律。本专利技术将已测定二级结构的RNA样本作为输入信息,已测定二级结构的RNA样本包含了两个重要信息,一是RNA的序列结构,二是这个RNA的序列结构中碱基位点配对的可能性值。机器学习模型将在已测定二级结构的RNA样本中学到的规律大规模地应用到其他未知结构的序列预测中,预测其他未知结构中每一个碱基位点会形成配对的概率分数。本专利技术的机器学习模型是基于Xgboost算法建立的,首先将已测定二级结构的RNA样本进行“简化”,简化成序列片段,序列片段中包括了配对的可能性值低的碱基或者配对的可能性值高的碱基,根据其中碱基的配对的可能性值高与低,取配对的可能性值高和可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段被分为正样本与负样本,正负样本的内容取决于学习的问题,学习的问题是RNA结构中每一个碱基位点形成配对的结果,每一个碱基位点形成配对或者碱基位点的配对的可能性高则为正样本。每一个碱基位点没有形成配对或者碱基位点的配对的可能性低则为负样本。Xgboost适用于变量数较少的表格数据,并且考虑数据特征较为稀疏的情况,而且其分布式的架构,能为后续大规模的序列预测提供高效的支持。对于已测定二级结构的RNA样本较少,输入数据较为稀疏等特点,显然Xgboost会更适用于该数据,而实验结果也表明,在大部分数据集上,该机器学习模型会获得更好的预测效果。将已测定二级结构的RNA样本进行“简化”以及Xgboost算法的选择使得本专利技术的准确性和运算效率就会得到很大的提高。进一步地,配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括:通过独热编码的方式对RNA序列编码;编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序,筛选出前a个碱基作为配对的可能性值高的碱基,筛选出后b个碱基作为配对的可能性值低的碱基;可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段,序列片段作为正样本并赋予标签“1”;可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段,序列片段作为负样本并赋予标签“0”。以独热编码来表征序列基本组成而使得输入数据较为稀疏,数字编码形式的数据更加适合Xgboost,将已测定二级结构的RNA样本进行“简化”的方法是取可能性值高或低的碱基与其上游一定长度的碱基序列、下游一定长度的碱基序列组成序列片段,该方法方便简单。进一步地,所述a=b。正样本数量与负样本数量比值为1:1,正负样本分布均衡,能提高机器学习模型的准确性。进一步地,通过独热编码的方式对RNA序列编码的步骤包括:RNA序列由腺嘌呤A、尿嘧啶U、鸟嘌呤G、胞嘧啶C四种碱基构成;对四种碱基进行编码,具体为;RNA序列中的腺嘌呤A=(1,0,0,0),尿嘧啶U=(0,1,0,0),胞嘧啶C=(0,0,1,0),鸟嘌呤G=(0,0,0,1),RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。进一步地,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试的步骤包括:利用训练集对机器学习模型进行训练;利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数;所述概率分数的预测模型为:其中,K为树的总个数,fk为第k棵决策树的评估函数,为样本数据xi的预测结果;预测模型的目标函数为:其中本文档来自技高网
...

【技术保护点】
1.基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,包括步骤:获取RNA序列和所述RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。

【技术特征摘要】
1.基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,包括步骤:获取RNA序列和所述RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。2.根据权利要求1所述的基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括:通过独热编码的方式对RNA序列编码;编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序,筛选出前a个碱基作为配对的可能性值高的碱基,筛选出后b个碱基作为配对的可能性值低的碱基;可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段,序列片段作为正样本并赋予标签“1”;可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段,序列片段作为负样本并赋予标签“0”。3.根据权利要求2所述...

【专利技术属性】
技术研发人员:肖侬柯耀斌饶家华杨跃东陈志广卢宇彤
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1