The present invention provides a method for predicting the secondary structure of whole genome RNA based on Xgboost, which includes: obtaining the possibility value of pairing base sites in RNA sequence and RNA sequence; using the sequence fragments formed by the combination of base sites with high probability value and a certain length of base sites upstream and downstream as positive samples; and using the base with low probability value and the sequence formed by the combination of base sites with a certain length of base sites upstream and downstream as positive samples. Column fragments are used as negative samples; the sample data set composed of positive and negative samples is divided into training set and test set. The training set and test set are loaded into machine learning model based on Xgboost algorithm, and the machine learning model is trained and tested. The secondary structure of RNA is predicted by the machine learning model after training and testing. When RNA forms secondary structure, each base site will form a pairing probability score. According to the probability score, it can provide a judgment basis for the formation of secondary structure in the next step.
【技术实现步骤摘要】
基于Xgboost的全基因组RNA二级结构预测方法
本专利技术涉及生物信息学研究领域,具体涉及基于Xgboost的全基因组RNA二级结构预测方法。
技术介绍
RNA二级结构预测是分子生物学的一个重要研究领域,对于推动生命科学的发展具有极其重要的意义。RNA分子结构由三级结构组成:一级结构、二级结构、三级结构。RNA二级结构是指RNA序列由自身回折形成的茎环结构,是一种介于一级结构和三级结构之间的结构,且存储较多高级结构信息,因此RNA二级结构的研究成为生物信息学领域的重要研究问题。二级结构的确定主要有两种方法:物理化学的实验方法和数学计算的预测方法。实验方法主要包括X射线晶体衍射和核磁共振(NMR)。虽然实验方法得到的结果精确,但由于RNA分子降解速度快,难以结晶,故通过等实验方法测定RNA分子的结构很不容易,费时费力,代价高昂,无法满足今天海量RNA二级结构预测的需求。另外实验方法只能测定包含较少碱基的RNA序列的二级结构,而面对分子量较大的RNA时,实验方法的精确度会急剧下降。为了解决上述实验方法的弊端,人们开始着手借助数学计算方法,并结合计算机从理论上去预测RNA的二级结构,然后做进一步的验证。当只给定RNA的一级序列而缺少先验知识,传统的RNA二级结构预测方法一般采用最小自由能模型。该模型假设所有RNA都会折叠成一个具有最小自由能的二级结构,而二级结构中的每段模体(motif)都有相应的自由能计算方法,一般茎区的自由能为负值,环区自由能为正,茎区越长其自由能越小。因此可以近似的认为,配对的碱基使自由能降低,没有形成配对的碱基则会使自由能升高。申请号 ...
【技术保护点】
1.基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,包括步骤:获取RNA序列和所述RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。
【技术特征摘要】
1.基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,包括步骤:获取RNA序列和所述RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。2.根据权利要求1所述的基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括:通过独热编码的方式对RNA序列编码;编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序,筛选出前a个碱基作为配对的可能性值高的碱基,筛选出后b个碱基作为配对的可能性值低的碱基;可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段,序列片段作为正样本并赋予标签“1”;可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段,序列片段作为负样本并赋予标签“0”。3.根据权利要求2所述...
【专利技术属性】
技术研发人员:肖侬,柯耀斌,饶家华,杨跃东,陈志广,卢宇彤,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。