一种RNA编码潜能的预测方法技术

技术编号：20822576 阅读：28 留言：0更新日期：2019-04-10 06:39

本发明专利技术属于基因注释领域，更具体地，涉及一种RNA编码潜能的预测方法。该方法(命名为CPPred)通过整合多个序列特征，特别是本发明专利技术使用CTD来描述RNA的全局分布；然后，以候选特征之间的冗余度和相关性作为标准，并结合递增特征选择方法，从中选取最佳特征集合作为特征向量；通过支持向量机(SVM)建立预测模型；最后根据待预测的RNA序列的特征向量，获取预测结果。本发明专利技术提供的预测方法在预测长的RNA序列和当前已有方法结果相当(准确度达到90％以上)，然而在短的RNA序列预测上，该方法明显优于当前已有的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种RNA编码潜能的预测方法
本专利技术属于基因注释领域，更具体地，涉及一种RNA编码潜能的预测方法。
技术介绍
近几年来，下一代测序技术产生了成千上万新的转录本，于是快速且准确地区分编码RNAs和非编码RNAs(ncRNAs)成为分析这些数据的关键。在生物体中，ncRNA虽然不能编码蛋白质但是也具有重要的生物功能，比如基因调控、基因沉默、RNA修饰和加工。在编码潜能的预测领域，已经公开了一种使用无比对逻辑回归模型的编码潜能评估工具CPAT。其使用4个序列特征：开放阅读框的长度、开放阅读框的覆盖率、Fickett打分和六聚体打分。此预测领域中，还公开了CPC2，其也只是使用4个序列特征：开放阅读框的长度、Fickett分数，开放阅读框的完整性和等电点。另外一种工具PLEK，使用改进的k-mer策略预测长链非编码RNA和编码RNA。虽然这些工具可以很好的区分长的编码RNA和ncRNA，但是对于sORF的编码潜能的预测精度较低，故在预测sORF上仍存在很大不足。目前，越来越多的sORF的数据被发现，然而具有意义和功能的sORFs的数目比较少。2010年，sORFfinder被提出，它是一种专门为预测sORF设计的程序，它只使用六聚体特征来预测sORF的编码。然而，只使用一个特征得到的预测结果会有很高的假阳性率。所以，在sORF预测方面仍然是一个悬而未决的问题。故本专利技术提出一种RNA编码潜能的预测方法CPPred，不仅能够很好的预测长的RNA序列，而且对于短的RNA序列的预测也有较高的准确性。
技术实现思路
针对现有技术的以上缺陷或改进需求，本专利技术提供了一种...

【技术保护点】
1.一种RNA编码潜能的预测方法，其特征在于，包括如下步骤：(1)训练集中的RNA样本候选特征集合的获取：所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征；(2)最佳特征集合的获取：根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合；(3)使用步骤(2)获得的最佳特征集合，对训练集中所有的RNA样本采用机器学习方法进行训练，获取RNA编码潜能预测模型；(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型，得到待预测RNA序列的预测结果。

【技术特征摘要】
1.一种RNA编码潜能的预测方法，其特征在于，包括如下步骤：(1)训练集中的RNA样本候选特征集合的获取：所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征；(2)最佳特征集合的获取：根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合；(3)使用步骤(2)获得的最佳特征集合，对训练集中所有的RNA样本采用机器学习方法进行训练，获取RNA编码潜能预测模型；(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型，得到待预测RNA序列的预测结果。2.如权利要求1所述的预测方法，其特征在于，所述CTD编码特征表示全局转录本序列描述符，其中：第一个描述符C用于描述转录本序列中每个核苷酸的百分比组成；第二个描述符T用于描述相邻位置之间四个核苷酸转换的频率百分比；第三个描述符D用于描述每个核苷酸在转录本序列上的五个相对位置，分别为0、25％、50％、75％和100％，其中0代表第一个相对位置，10...

【专利技术属性】
技术研发人员：刘士勇，童晓雪，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人