一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法技术

技术编号：19098839 阅读：115 留言：0更新日期：2018-10-03 02:46

本发明专利技术是一种新型的lncRNA鉴定方法。本发明专利技术提出了基于对数度量，多尺度二级结构，电子‑离子互作赝势的三种新型特征设计提取方式，并进而利用机器学习算法构建分类器。对数度量特征可大幅降低基于序列组成特征的维数，在保证高准确度的同时提升模型的效率；多尺度二级结构特征则可在结构层面挖掘更加保守的特征；电子‑离子互作赝势通过序列理化特征进一步提升本发明专利技术的跨物种稳定性。经实验验证，本发明专利技术针对人类数据集准确度高达97.28％，针对小鼠数据集准确度达93.47％，且本发明专利技术仅需56.01秒即可完成5000条序列的预测。相比其他算法，本发明专利技术有着更良好的准确度与效率，也具有更优秀的容错性与跨物种稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法
：本专利技术属于生物信息领域，尤其涉及lncRNA的鉴定。
技术介绍
：在人类基因组中，有80％的序列具有生物学功能，而编码蛋白质的序列只占基因组的不到2％。我们将长度大于200碱基，不能编码蛋白质的RNA称为长非编码RNA，简称lncRNA。lncRNA与众多生物通路以及多种疾病，特别是恶性肿瘤，有着密切的联系。更有研究认为，lncRNA是解决肿瘤问题的最终落脚点。但lncRNA保守性较差，表达量也较低，与编码RNA十分相似，甚至与编码RNA存在序列上的重合区域。这些因素为lncRNA研究的第一步，即lncRNA的鉴定，带来了诸多困难。随机器学习技术的快速发展，目前已有几种基于机器学习算法的lncRNA鉴定方法被提出。其主要原理是首先针对序列进行特征提取，而后利用机器学习算法构建lncRNA分类器。一个算法表现的优劣与特征提取有着非常直接的关系，关键的特征可以更加准确地对lncRNA进行鉴定。在lncRNA鉴定问题中，通常将lncRNA标记为正类(positiveclass)，编码RNA标记为负类(negativeclas本文档来自技高网...

【技术保护点】
1.一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法，其特征在于：包括以下步骤：第一步：构建训练集；第二步：设计提取基因的序列组成特征；第三步：依据RNA序列的二级结构，设计提取多尺度二级结构特征；第四步：转换基因序列为数值序列，设计并提取基于电子‑离子互作赝势的理化性质特征；第五步：构建分类器，用以lncRNA鉴定。

【技术特征摘要】
1.一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法，其特征在于：包括以下步骤：第一步：构建训练集；第二步：设计提取基因的序列组成特征；第三步：依据RNA序列的二级结构，设计提取多尺度二级结构特征；第四步：转换基因序列为数值序列，设计并提取基于电子-离子互作赝势的理化性质特征；第五步：构建分类器，用以lncRNA鉴定。2.根据权利要求1所述的一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法，其特征在于：第一步所述的构建训练集主要进行高质量训练集的构建，具体步骤包括：步骤1.1：获取某一物种大量的lncRNA序列与编码RNA序列；步骤1.2：对序列进行质量筛选，即清除质量不佳的序列，以得到高质量lncRNA与编码RNA序列；质量不佳序列通常表现为含有非标准碱基的序列，序列间相似度大于40％的序列。步骤1.3：选取相同数目的lncRNA与编码RNA构建训练集。3.根据权利要求1所述的一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法，其特征在于：第二步所述的序列组成特征共五条，设计提取序列组成特征，具体步骤包括：步骤2.1：提取最长开放阅读框的长度与覆盖率；对训练集中的序列查找最长开放阅读框，并计算最长开放阅读框的长度；覆盖率为最长开放阅读框的长度与序列长度的比值；步骤2.2：提取三条k联碱基组合的对数度量特征；提取对数度量特征，首先需按如下公式定义对数度量方案，用以提取LogDist.LNC，LogDist.PCT与LogDist.Ratio三条对数度量特征，这一对数度量方案不仅可用于本步骤提取序列组成特征，亦可用于阶段3中的基于结构信息的特征的提取，具体公式如下：公式中的freq.seq为待检测序列的k联碱基组合频率，freq.lnc为lncRNA的平均k联碱基频率，freq.pct为编码RNA的平均k联碱基频率，i表示不同的k联碱基组合，n表示一条待检测序列中的k联碱基频率组合总数；此步骤针对步骤2.1中提取而得的最长开放阅读框提取三条对数度量特征，公式中的k值可根据训练集数据，通过10折交叉验证的形式确定；步骤2.3：将由训练集提取而得的五条序列组成特征与相应标签另存为特征文件。4.根据权利要求1所述的一种基于序列组成，结构信息及理化特征的lncRNA鉴定方法，其特征在于：第三步所述的设计提取多尺度二级结构特征，具体步骤包括：步骤3.1：获取训练集RNA序列的二级结构序列，并用点括号的形式表示；此处使用seq[n](seq[n]∈{a，c，g，u})表示一条长度为N的RNA序列，使用SS[n](SS[n]∈{.，(，)})表示序列seq[n]的点括号形式的二级结构序列；步骤3.2：计算多尺度二级结构特征中的初级尺度特征；这一特征为RNA序列的最小自由能；步骤3.3：构建三条中级尺度的二级结构序列，以供后续提取中级尺度二级结构特征；根据步骤3.1中定义的SS[n]，三条中级尺度的二级结构序列构造方式如下：首先根据步骤3.1中定义的SS[n]判断如下四种二级结构子单元：茎stem，环loop，发卡环hairpin与突环bulge；将seq[n]中的碱基用对应的结构子单元进行替换后，即可得到一条由结构子单元组成的序列，命名为SSE.FullSeq；进一步将序列中相同且连续的结构子单元，使用一个结构子单元来代替，便可得到一条新的结构子单元序列，命名为SSE.AbbrSeq；最后，根据二级结构序列步骤3.1中定义的SS[n]中的配对情况，可通过如下公式得到第三条中级尺度的二级结构序列，即Paired-UnpairedSeq:通过本步骤，可最终得到SSE.FullSeq，SSE.AbbrSeq与Paired-UnpairedSeq三条中级尺度二级结构序列；步骤3.4：构建三条高级尺度的二级结构序列，以供后续提取高级尺度二级结构特征；根据步骤3.1中定义的seq[n]与SS[n]，三条高级尺度的二级结构序列构造方式如下；首先将RNA序列中对应于SS[n]的不配对碱基使用字母D，即dot代替，得到二级结构序列acguDSeq，可用公式表示为：而后，...

【专利技术属性】
技术研发人员：李瑛，梁艳春，韩斯禹，杜伟，张禹，张慧，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林,22

全部详细技术资料下载我是这个专利的主人