一种RNA编码潜能的预测方法技术

技术编号:20822576 阅读:28 留言:0更新日期:2019-04-10 06:39
本发明专利技术属于基因注释领域,更具体地,涉及一种RNA编码潜能的预测方法。该方法(命名为CPPred)通过整合多个序列特征,特别是本发明专利技术使用CTD来描述RNA的全局分布;然后,以候选特征之间的冗余度和相关性作为标准,并结合递增特征选择方法,从中选取最佳特征集合作为特征向量;通过支持向量机(SVM)建立预测模型;最后根据待预测的RNA序列的特征向量,获取预测结果。本发明专利技术提供的预测方法在预测长的RNA序列和当前已有方法结果相当(准确度达到90%以上),然而在短的RNA序列预测上,该方法明显优于当前已有的方法。

【技术实现步骤摘要】
一种RNA编码潜能的预测方法
本专利技术属于基因注释领域,更具体地,涉及一种RNA编码潜能的预测方法。
技术介绍
近几年来,下一代测序技术产生了成千上万新的转录本,于是快速且准确地区分编码RNAs和非编码RNAs(ncRNAs)成为分析这些数据的关键。在生物体中,ncRNA虽然不能编码蛋白质但是也具有重要的生物功能,比如基因调控、基因沉默、RNA修饰和加工。在编码潜能的预测领域,已经公开了一种使用无比对逻辑回归模型的编码潜能评估工具CPAT。其使用4个序列特征:开放阅读框的长度、开放阅读框的覆盖率、Fickett打分和六聚体打分。此预测领域中,还公开了CPC2,其也只是使用4个序列特征:开放阅读框的长度、Fickett分数,开放阅读框的完整性和等电点。另外一种工具PLEK,使用改进的k-mer策略预测长链非编码RNA和编码RNA。虽然这些工具可以很好的区分长的编码RNA和ncRNA,但是对于sORF的编码潜能的预测精度较低,故在预测sORF上仍存在很大不足。目前,越来越多的sORF的数据被发现,然而具有意义和功能的sORFs的数目比较少。2010年,sORFfinder被提出,它是一种专门为预测sORF设计的程序,它只使用六聚体特征来预测sORF的编码。然而,只使用一个特征得到的预测结果会有很高的假阳性率。所以,在sORF预测方面仍然是一个悬而未决的问题。故本专利技术提出一种RNA编码潜能的预测方法CPPred,不仅能够很好的预测长的RNA序列,而且对于短的RNA序列的预测也有较高的准确性。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种RNA编码潜能的预测方法,该方法(命名为CPPred)通过整合多个序列特征,特别是本专利技术使用CTD来描述RNA的全局分布;然后,以候选特征之间的冗余度和相关性作为标准,并结合递增特征选择方法,从中选取最佳特征集合作为特征向量;通过支持向量机(SVM)建立预测模型;最后根据待预测的RNA序列的特征向量,获取预测结果。本专利技术提供的预测方法在预测长的RNA序列和当前已有方法结果相当(准确度达到90%以上),然而在短的RNA序列预测上,该方法明显优于当前已有的方法。由此解决现有技术的sORF的编码潜能的预测方法和工具存在的预测准确度不高以及存在过拟合风险的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种RNA编码潜能的预测方法,包括如下步骤:(1)训练集中的RNA样本候选特征集合的获取:所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;(2)最佳特征集合的获取:根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合;(3)使用步骤(2)获得的最佳特征集合,对训练集中所有的RNA样本采用机器学习方法进行训练,获取RNA编码潜能预测模型;(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型,得到待预测RNA序列的预测结果。优选地,所述CTD编码特征表示全局转录本序列描述符,其中:第一个描述符C用于描述转录本序列中每个核苷酸的百分比组成;第二个描述符T用于描述相邻位置之间四个核苷酸转换的频率百分比;第三个描述符D用于描述每个核苷酸转录序列上的五个相对位置,分别为0、25%、50%、75%和100%,其中0代表第一个相对位置,100%代表最后一个相对位置。优选地,步骤(2)具体为:采用最大相关最小冗余方法对所述候选特征集合中的特征进行排序,结合递增特征选择方法使用交叉验证方法进行训练和测试,获取样本的评估指标σ,选取σ最大时的特征集合作为最佳特征集合。优选地,所述评估指标σ为马修相关系数。优选地,步骤(2)具体为:对步骤(1)所述候选特征集合中各特征采用主成分分析PCA选择方法获取最佳特征集合。优选地,步骤(3)获得RNA编码潜能预测模型以后,将测试集中的RNA序列对应的最佳特征集合代入到所述的预测模型,得到测试集中RNA序列的预测结果,以验证所述预测模型的准确性。优选地,所述训练集用于建模,所述测试集用于检测模型的准确性,使用时对所述训练集内部进行去冗余操作,以减少过拟合风险;同时训练集和测试集之间也进行去冗余操作。优选地,步骤(3)所述机器学习方法为支持向量机法。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本专利技术的RNA编码潜能预测的方法CPPred不依赖于RNA的长度,通过引入CTD编码的特征,CPPRed既能区分长的编码RNAs和ncRNAs,又能很好的区分短的编码RNAs和ncRNAs;在短序列预测上更有优势,相较于现有技术的短序列预测方法准确度高。(2)本专利技术首次使用了CTD编码的转录本特征来预测真核生物的RNA的编码潜能,再结合现有工具的特征开发的一种新的预测编码潜能的工具。该工具大大降低了物种依赖性,具有良好的物种普适性。(3)本专利技术RNA编码潜能的预测方法通过对选择的训练集和测试集进行去冗余操作,并通过精心选择特定的候选特征集合,再对候选特征进行排序,获得最佳特征集合,利用最佳特征集合进行模型的构建以及待测序列的预测,本专利技术RNA编码潜能预测工具没有过度拟合,也不存在过度拟合的风险。(4)在确定最终的预测模型时,以马修相关系数作为评估指标,比通过准确度评估更具说服力,建立的预测模型更为优越。附图说明图1为本专利技术RNA编码预测方法流程图;图2为本专利技术数据集的构建流程图;图3为本专利技术中CTD编码的特征的示例;图4为本专利技术中候选特征集合中特征的排名示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术公开了一种RNA编码潜能的预测工具CPPred,如图1所示,其原理步骤包括:(1)训练集中的RNA样本候选特征集合的获取;选取来自RNA序列和蛋白质序列的多个特征,其包含之前开发的CPAT(Wangetal.,2013,CPAT:Coding-PotentialAssessmentToolusinganalignment-freelogisticregressionmodel.NUCLEICACIDSRES)和CPC2(Kangetal.,2017,CPC2:afastandaccuratecodingpotentialcalculatorbasedonsequenceintrinsicfeatures.NUCLEICACIDSRES)软件的特征。本专利技术所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数(通过核苷酸组成和密码子使用偏差的组合效应来计算得到)、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;本专利技术特别在候选特征集合中增加了CTD编码的特征,其是首次应用到真核生物预测RNA编码潜能的特征。本专利技术数据集包括测试集和训练集,训练本文档来自技高网...

【技术保护点】
1.一种RNA编码潜能的预测方法,其特征在于,包括如下步骤:(1)训练集中的RNA样本候选特征集合的获取:所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;(2)最佳特征集合的获取:根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合;(3)使用步骤(2)获得的最佳特征集合,对训练集中所有的RNA样本采用机器学习方法进行训练,获取RNA编码潜能预测模型;(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型,得到待预测RNA序列的预测结果。

【技术特征摘要】
1.一种RNA编码潜能的预测方法,其特征在于,包括如下步骤:(1)训练集中的RNA样本候选特征集合的获取:所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;(2)最佳特征集合的获取:根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合;(3)使用步骤(2)获得的最佳特征集合,对训练集中所有的RNA样本采用机器学习方法进行训练,获取RNA编码潜能预测模型;(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型,得到待预测RNA序列的预测结果。2.如权利要求1所述的预测方法,其特征在于,所述CTD编码特征表示全局转录本序列描述符,其中:第一个描述符C用于描述转录本序列中每个核苷酸的百分比组成;第二个描述符T用于描述相邻位置之间四个核苷酸转换的频率百分比;第三个描述符D用于描述每个核苷酸在转录本序列上的五个相对位置,分别为0、25%、50%、75%和100%,其中0代表第一个相对位置,10...

【专利技术属性】
技术研发人员:刘士勇童晓雪
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1