当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法技术

技术编号:19098839 阅读:96 留言:0更新日期:2018-10-03 02:46
本发明专利技术是一种新型的lncRNA鉴定方法。本发明专利技术提出了基于对数度量,多尺度二级结构,电子‑离子互作赝势的三种新型特征设计提取方式,并进而利用机器学习算法构建分类器。对数度量特征可大幅降低基于序列组成特征的维数,在保证高准确度的同时提升模型的效率;多尺度二级结构特征则可在结构层面挖掘更加保守的特征;电子‑离子互作赝势通过序列理化特征进一步提升本发明专利技术的跨物种稳定性。经实验验证,本发明专利技术针对人类数据集准确度高达97.28%,针对小鼠数据集准确度达93.47%,且本发明专利技术仅需56.01秒即可完成5000条序列的预测。相比其他算法,本发明专利技术有着更良好的准确度与效率,也具有更优秀的容错性与跨物种稳定性。

【技术实现步骤摘要】
一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法
:本专利技术属于生物信息领域,尤其涉及lncRNA的鉴定。
技术介绍
:在人类基因组中,有80%的序列具有生物学功能,而编码蛋白质的序列只占基因组的不到2%。我们将长度大于200碱基,不能编码蛋白质的RNA称为长非编码RNA,简称lncRNA。lncRNA与众多生物通路以及多种疾病,特别是恶性肿瘤,有着密切的联系。更有研究认为,lncRNA是解决肿瘤问题的最终落脚点。但lncRNA保守性较差,表达量也较低,与编码RNA十分相似,甚至与编码RNA存在序列上的重合区域。这些因素为lncRNA研究的第一步,即lncRNA的鉴定,带来了诸多困难。随机器学习技术的快速发展,目前已有几种基于机器学习算法的lncRNA鉴定方法被提出。其主要原理是首先针对序列进行特征提取,而后利用机器学习算法构建lncRNA分类器。一个算法表现的优劣与特征提取有着非常直接的关系,关键的特征可以更加准确地对lncRNA进行鉴定。在lncRNA鉴定问题中,通常将lncRNA标记为正类(positiveclass),编码RNA标记为负类(negativeclass);并使用敏感度(Sensitivity),特异度(Specificity),准确度(Accuracy)与F-度量(F-measure)这几种指标来对算法的表现进行评估:公式中P为正样本,N为负样本,TP是预测为正实际也为正的样本,TN为预测为负实际也为负的样本,而FP为预测为正而实际为负的样本,FN为预测为负而实际为正的样本。准确度可用来衡量正确预测所占的比例;敏感度与特异度可分别用来检测算法判断lncRNA与编码RNA的能力;而F-度量则可综合评价算法对两类序列的判断能力。目前主要的基于机器学习方法的lncRNA鉴定方法主要包括CPC,CNCI,PLEK与CPC2。这四种方法均为当前学界使用最为广泛的或代表最新科研进展的几种lncRNA鉴定手段。CPC由北京大学生物技术中心高歌课题组于2007年开发完成(KongL,ZhangY,YeZQ,etal.CPC:assesstheprotein-codingpotentialoftranscriptsusingsequencefeaturesandsupportvectormachine[J].NucleicAcidsResearch,2007,35(WebServerissue):W345.)。CPC是基于序列比对的lncRNA鉴定方法的代表,其特征主要从开放阅读框信息与蛋白质序列比对信息两方面提取而得。CPC首先将待检测RNA序列翻译为蛋白质序列,而后将其与数据库中的蛋白质序列进行比对来提取比对信息特征。CPC认为由编码RNA翻译而来的蛋白质序列与数据库中的蛋白质序列之间,往往有数量更多,质量更优的匹配片段。但作为基于序列比对的lncRNA鉴定方法,CPC有诸多难以避免的缺陷:首先,大量lncRNA与编码RNA非常相似,因此lncRNA翻译而得的蛋白质序列与数据库中的蛋白质序列之间,同样易于出现匹配片段,故CPC非常容易将lncRNA判断为编码RNA,造成敏感度较低。其次,CPC严重依赖于序列比对,对待检测序列与比对数据库的质量都有着较高的要求。然而目前测序技术得到的序列时常因信号较弱而出现测序误差,同时数据库中大量物种的注释信息又十分有限,很难为CPC提供充足的数据进行比对。因此CPC在对这类序列进行预测时,其结果不可避免地会产生较大误差,甚至因程序错误而无法进行预测。最后,序列的比对过程非常耗时,CPC可能需要数十小时才能完成几千条序列的预测,因此难以将CPC应用于大规模数据计算任务。值得关注的是,目前lncRNA的研究已经越来越聚焦于冷门物种的研究,而物种的序列往往是通过高通量测序技术得来,序列数量巨大,且碱基误差难以避免。因此CPC已越来越难以满足当前学术界对lncRNA研究领域提出的更高要求。其他三种鉴定lncRNA的方法CNCI,PLEK与CPC2均不需要进行序列比对,一定程度上改善了CPC方法中因序列比对带来的不足,特别是在计算效率上有了较大的提升。其中CNCI由中国科学院计算技术研究所赵屹团队于2013年开发完成(LiangS,LuoH,BuD,etal.Utilizingsequenceintrinsiccompositiontoclassifyprotein-codingandlongnon-codingtranscripts[J].NucleicAcidsResearch,2013,41(17):e166.)。CNCI主要利用的特征包括:序列最近似编码区片段上的相邻密码子碱基信息,以及3联碱基频率。与CPC相比,CNCI有着更加良好的敏感度,即在敏感度与特异度上取得了更好的平衡。但CNCI主要基于序列碱基频率进行预测,因不同物种序列的碱基频率千差万别,CNCI在不同物种上的表现也会有所波动;此外,由于需要寻找序列的最近似编码区片段,CNCI依然对序列的质量有较高要求。与CPC一样,CNCI无法判断某些存在碱基错误的序列。PLEK由西安电子科技大学计算机学院张军英团队于2014年开发完成(LiA,ZhangJ,ZhouZ.PLEK:atoolforpredictinglongnon-codingRNAsandmessengerRNAsbasedonanimprovedk-merscheme[J].BmcBioinformatics,2014,15(1):311.)。PLEK利用1至5联碱基频率进行lncRNA预测。与CPC,CNCI相比,PLEK的特征设计相对简单,计算效率也得到了进一步提升。同时,PLEK不需要像CPC一样进行数据比对,亦不需要像CNCI寻找序列的最近似编码片段,因此PLEK对序列有良好的容错性,序列中存在的碱基错误不会明显地干扰PLEK的表现。但PLEK较CNCI更加严重地依赖于序列碱基频率,因此PLEK在不同物种下的表现更加不稳定。为弥补方法CPC的不足,高歌团队于2017年提出了新的lncRNA鉴定算法,即CPC2(KangYJ,YangDC,KongL,etal.CPC2:afastandaccuratecodingpotentialcalculatorbasedonsequenceintrinsicfeatures.[J].NucleicAcidsResearch,2017,45(W1).)。这一方法亦不再依赖于序列比对,其主要利用开放阅读框、等电点信息与密码子中碱基含量的偏好性来对lncRNA进行鉴定。CPC2的效率相比CPC,CNCI与PLEK有了大幅的提升,同时在敏感度与特异度上有了更加良好的平衡。但CPC2仍然未能取得优秀的跨物种稳定性。综上,机器学习技术已逐渐成为学术界针对lncRNA鉴定进行研究的主流手段。但基于序列比对方法的CPC,无论表准确度还是效率,其表现均不优秀;而诸多非基于序列比对的方法,则几乎都单一地从序列组成这一角度对lncRNA进行考虑,仅CPC2从等电点这一理化性质特征来判断lncRNA与编码RNA之间的差异。不同物种间的序列组成往往存在差异,仅利用序列组成对lncRNA进行鉴本文档来自技高网...

【技术保护点】
1.一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法,其特征在于:包括以下步骤:第一步:构建训练集;第二步:设计提取基因的序列组成特征;第三步:依据RNA序列的二级结构,设计提取多尺度二级结构特征;第四步:转换基因序列为数值序列,设计并提取基于电子‑离子互作赝势的理化性质特征;第五步:构建分类器,用以lncRNA鉴定。

【技术特征摘要】
1.一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法,其特征在于:包括以下步骤:第一步:构建训练集;第二步:设计提取基因的序列组成特征;第三步:依据RNA序列的二级结构,设计提取多尺度二级结构特征;第四步:转换基因序列为数值序列,设计并提取基于电子-离子互作赝势的理化性质特征;第五步:构建分类器,用以lncRNA鉴定。2.根据权利要求1所述的一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法,其特征在于:第一步所述的构建训练集主要进行高质量训练集的构建,具体步骤包括:步骤1.1:获取某一物种大量的lncRNA序列与编码RNA序列;步骤1.2:对序列进行质量筛选,即清除质量不佳的序列,以得到高质量lncRNA与编码RNA序列;质量不佳序列通常表现为含有非标准碱基的序列,序列间相似度大于40%的序列。步骤1.3:选取相同数目的lncRNA与编码RNA构建训练集。3.根据权利要求1所述的一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法,其特征在于:第二步所述的序列组成特征共五条,设计提取序列组成特征,具体步骤包括:步骤2.1:提取最长开放阅读框的长度与覆盖率;对训练集中的序列查找最长开放阅读框,并计算最长开放阅读框的长度;覆盖率为最长开放阅读框的长度与序列长度的比值;步骤2.2:提取三条k联碱基组合的对数度量特征;提取对数度量特征,首先需按如下公式定义对数度量方案,用以提取LogDist.LNC,LogDist.PCT与LogDist.Ratio三条对数度量特征,这一对数度量方案不仅可用于本步骤提取序列组成特征,亦可用于阶段3中的基于结构信息的特征的提取,具体公式如下:公式中的freq.seq为待检测序列的k联碱基组合频率,freq.lnc为lncRNA的平均k联碱基频率,freq.pct为编码RNA的平均k联碱基频率,i表示不同的k联碱基组合,n表示一条待检测序列中的k联碱基频率组合总数;此步骤针对步骤2.1中提取而得的最长开放阅读框提取三条对数度量特征,公式中的k值可根据训练集数据,通过10折交叉验证的形式确定;步骤2.3:将由训练集提取而得的五条序列组成特征与相应标签另存为特征文件。4.根据权利要求1所述的一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法,其特征在于:第三步所述的设计提取多尺度二级结构特征,具体步骤包括:步骤3.1:获取训练集RNA序列的二级结构序列,并用点括号的形式表示;此处使用seq[n](seq[n]∈{a,c,g,u})表示一条长度为N的RNA序列,使用SS[n](SS[n]∈{.,(,)})表示序列seq[n]的点括号形式的二级结构序列;步骤3.2:计算多尺度二级结构特征中的初级尺度特征;这一特征为RNA序列的最小自由能;步骤3.3:构建三条中级尺度的二级结构序列,以供后续提取中级尺度二级结构特征;根据步骤3.1中定义的SS[n],三条中级尺度的二级结构序列构造方式如下:首先根据步骤3.1中定义的SS[n]判断如下四种二级结构子单元:茎stem,环loop,发卡环hairpin与突环bulge;将seq[n]中的碱基用对应的结构子单元进行替换后,即可得到一条由结构子单元组成的序列,命名为SSE.FullSeq;进一步将序列中相同且连续的结构子单元,使用一个结构子单元来代替,便可得到一条新的结构子单元序列,命名为SSE.AbbrSeq;最后,根据二级结构序列步骤3.1中定义的SS[n]中的配对情况,可通过如下公式得到第三条中级尺度的二级结构序列,即Paired-UnpairedSeq:通过本步骤,可最终得到SSE.FullSeq,SSE.AbbrSeq与Paired-UnpairedSeq三条中级尺度二级结构序列;步骤3.4:构建三条高级尺度的二级结构序列,以供后续提取高级尺度二级结构特征;根据步骤3.1中定义的seq[n]与SS[n],三条高级尺度的二级结构序列构造方式如下;首先将RNA序列中对应于SS[n]的不配对碱基使用字母D,即dot代替,得到二级结构序列acguDSeq,可用公式表示为:而后,...

【专利技术属性】
技术研发人员:李瑛梁艳春韩斯禹杜伟张禹张慧
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1