【技术实现步骤摘要】
一种基于序列特征的植物长链非编码RNA预测方法
[0001]本专利技术属于生物信息学和自然语言处理领域,具体涉及一种基于序列特征的植物长链非编码RNA预测方法。
技术介绍
[0002]近年来,海量的生物医学数据表明,lncRNA在人类的各项生命活动中均扮演重要角色,其中植物lncRNA的预测问题作为生物信息学与自然语言处理的交叉领域,也备受关注。但其准确率还远远未达到令人满意的高度。开发能够精确识别植物lncRNA的计算机程序仍然被认为是一项有研究价值且必要的工作。该工作结合了自然语言处理中的各种子任务,如正负样本数据收集和处理,序列特征的提取与融合,最优特征子集的选取和各个分类器结果的选择对比。
[0003]在植物lncRNA的预测中,计算机根据从足够的数据或大数据中获得到的序列特征,以解决关于植物lncRNA的预测问题。虽然,研究人员已提出众多方法,植物lncRNA预测一直是一个开放的问题,所提出的模型的准确性和鲁棒性都需要进一步地改进。植物lncRNA预测算法可分为以下几种:1)基于梯度提升决策树的模型;2)基 ...
【技术保护点】
【技术特征摘要】
1.一种基于序列特征的植物长链非编码RNA预测方法,其特征在于:所述方法包括正负数据集构建去冗余、序列k
‑
mer频率特征提取、特征融合与选择以及分类器对比;其中,正负数据集的构建去冗余消除序列相似性对预测结果造成的影响,序列特征提取实现对基因序列k
‑
mer特征的提取,特征融合是在序列k
‑
mer频率特征提取的基础上加入序列长度特征和序列GC含量特征后将这三类特征进行融合,接着使用卡方检验进行最优特征选择,根据不同特征的p
‑
value值选出最优特征组成特征子集,再将最优子集特征输入梯度提升决策树分类器以解决植物lncRNA的识别分类问题。2.根据权利要求1所述一种基于序列特征的植物长链非编码RNA预测方法,其特征在于:所述方法具体包括以下步骤:步骤1,给定正负样本数据集对它们进行去冗余处理,保留相似性低于60%的基因序列;步骤2,给定去冗余后的正负样本数据集提取序列GC含量特征和序列长度特征;步骤3,给定去冗余后的正负样本数据集提取k
‑
mer子序列;步骤4,根据TF
‑
IDF算法对正负样本数据集的每个k
‑
mer子序列计算它的重要程度,计算结果为该k
‑
mer的频率特征;步骤5,将正负样本数据集对应的k
‑
mer频率特征、步骤2提取的序列GC含量特征和序列长度特征拼接组合起来得到初始特征;步骤6,采用卡方检验从包含所有正负样本初始特征的特征集中选择出最能区分正负样本的特征子集,这些特征子集称为最优特征子集;步骤7,将选择出来的最优特征子集作为输入投入分类器进行分类得到最终的分类结果。3.根据权利要求2所述一种基于序列特征的植物长链非编码RNA预测方法,其特征在于:步骤3中,k
‑
mer指的是一个测序序列中长度为k个碱基的子序列;子序列中每个位置上的碱基是A、U、C、G四个碱基中的任意一个,k
‑
mer子序列总个数为41+42+43+...+4
k
,k为正整数。4.根据权利要求2所述一种基于序列特征的植物长链非编码RNA预测方法,其特征在于:步骤4中,计算公式为:于:步骤4中,计算公式为:F
i
=tf
ij
*idf
i
其中,tf
ij
表示第i个k
‑
mer子序列在某数据集第j条序列中出现的频率;n
i,j
表示在该数据集第j条序列中第i个k
‑
mer出现的次数;∑
k
n
k,j
表示该数据集第j条序列中所有k
‑
mer出现的次...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。