当前位置: 首页 > 专利查询>广西大学专利>正文

基于DFT的RNA二级结构距离计算构建系统发育树的方法技术方案

技术编号:19511876 阅读:40 留言:0更新日期:2018-11-21 08:07
本发明专利技术公开了基于DFT的RNA二级结构距离计算构建系统发育树的方法。通过将RNA的二级结构中的自由基和配对碱基映射成可视化的坐标系,然后利用DFT在不丢失信息的情况下挖掘RNA二级结构x、y和z轴坐标系隐藏的信息,从而获得RNA二级结构在x、y和z轴序列功率谱,通过分析DFT的功率谱特征,选取合适的提取公式计算RNA二级结构x、y和z轴上的特征值,作为RNA二级结构的特征向量,通过计算不同RNA二级结构特征向量间的距离构建物种系统发育树,研究物种的进化关系。本发明专利技术的方法,简化了通过RNA序列比对计算距离构建相似度的复杂度,避免了RNA序列比对算法忽略RNA二级结构的弊端,能够快速准确地根据物种RNA的二级结构计算距离,生成准确的系统发育树。

【技术实现步骤摘要】
基于DFT的RNA二级结构距离计算构建系统发育树的方法
本专利技术属于系统发育树构建方法,特别涉及基于DFT的RNA二级结构距离计算构建系统发育树的方法。
技术介绍
核糖核酸(缩写为RNA,即RibonucleicAcid),近几年,越来越多的研究表明RNA在抵御细菌侵扰和治疗肿瘤方面作用重大,研究RNA分子结构的组成和特点也随之成为了一个热点问题。事实上,RNA的二级结构相比原始序列更加具有保守性,如何计算RNA二级结构间的距离用于RNA二级结构的功能预测变得尤为重要。基于比对计算RNA序列间的距离方法,消耗了大量的计算资源,耗时较长,也得不到比较好的比对结果;同时基于比对计算RNA序列间的距离方法,只考虑了RNA的一级序列顺序结构,忽略了RNA二级结构固有的自身的回折后依据特定碱基配对A-U,C-G,G-U之间的氢键形成稳定的二级结构,计算RNA二级结构间的距离不准确。无需比对计算RNA二级结构在不丢失精度的情况下,能够节约计算资源,降低计算复杂度(算法整体的时间复杂度达到O(n2),其中n为RNA二级结构序列中最长的序列长度),相比基于比对计算RNA序列间的距离方法(时间复杂度达到了O(m*n2),其中m表示基于比对的RNA二级结构序列的数量,n表示所有RNA二级结构序列中最长序列的碱基数目)具有明显的优势。
技术实现思路
针对上述技术问题,本专利技术提供基于DFT的RNA二级结构距离计算构建系统发育树的方法。本专利技术解决上述技术问题的技术方案如下:基于DFT的RNA二级结构距离计算构建系统发育树的方法,具体步骤如下:1)RNA二级结构的映射规则:用A,G,C,U符号分别表示RNA二级结构中未配对的碱基,用A’,G’,C’和U’分别表示RNA二级结构中的配对碱基,则得到RNA二级结构5’端到3’端的特征序列,通过如下公式(1)将RNA二级结构中的自由基和配对基表示为一个(3×N)的二维矩阵:式(1)中:i=1,2,3....N;xi,yi,zi∈[-1,1];Ai、Ui、Gi、Ci、A'i、U'i、G'i、C'i分别对应表示从上述特征序列中第一个碱基到第i个碱基中A、U、G、C和A’、U’、G’、C’中的碱基数量,N为RNA二级结构的所有碱基数量;2)RNA二级结构x、y和z轴序列的离散傅里叶变换:将步骤1)得到的(3×N)的二维矩阵拆分成只包含[x1,x2,x3......xN]的x轴序列Lx(N),只包含[y1,y2,y3......yN]的y轴序列Ly(N),只包含[z1,z2,z3......zN]的z轴序列Lz(N),分别将Lx(N)、Ly(N)和Lz(N)进行DFT变换,对应得到序列Fx(k)、Fy(k)和Fz(k);所述Lx(N)的DFT变换公式如下:式(2)中,k=0,1,2,...,N-1,N表示RNA二级结构序列的长度;同理Ly(N)和Lz(N)分别进行DFT变换对应得到Fy(k)和Fz(k)序列;Fx(k)在特定的k频率下的DFT功率谱PSx(k)表示如式(3):PSx(k)=|Fx(k)|2,k=0,1,...,N-1(3)同理分别得到Fy(k)和Fz(k)对应的功率谱Psy(k)和PSz(k);3)提取功率谱的特征值:根据步骤2)所得的功率谱PSx(k)、Psy(k)和PSz(k),按公式(4)提取RNA二级结构x轴上功率谱的特征值:同理分别得到y轴和z轴上的特征值;则每一个RNA二级结构表示成唯一的三维向量[Px,Py,Pz]’;4)物种系统发育树的建立:具体步骤如下:4.1)使用欧式距离计算不同物种RNA二级结构间的距离dis(i,j),具体公式如下:式(5)中,i,j分别表示不同物种,ik和jk表示RNA二级结构的特征向量,用式(5)分别计算出t个物种任意两个物种i和j之间的距离,则得到一个t×t的距离矩阵D;D是一个对角线全部为0的对称矩阵,每一个元素D[i,j]表示了物种i与物种j之间的RNA二级结构的距离;4.2)将步骤4.1)得到的距离矩阵D导入到分子进化遗传分析软件MEGA6.0中,构建系统发育树。本专利技术的有益效果是:无需通过RNA序列比对计算RNA序列间的距离,通过本专利技术方法的实施,同时可以兼顾RNA序列特征和RNA的二级结构的特征,相比RNA序列比对求解距离的方法来说,节约了计算资源,缩短了计算时间;利用DFT在不丢失信息的情况下挖掘RNA二级结构x、y和z轴坐标系隐藏的信息,从而获得RNA二级结构x、y和z轴序列功率谱,通过分析功率谱的固有特征,提取功率谱的有效特征值作为RNA二级结构的特征值,从而建立物种RNA二级结构间的距离矩阵,根据距离矩阵能够快速且准确生成物种系统发育树,分析物种间的进化关系。附图说明图1是CVV-3的部分RNA二级结构的示意图。图2是用本专利技术方法对9种RNA病毒的二级结构构造的系统发育树。图3是用现有技术(参见LiY,DuanM,LiangY.Multi-scaleRNAcomparisonbasedonRNAtriplevectorcurverepresentation[J].BMCBioinformatics,2012,13(1):1-12.)的方法对9种RNA病毒的二级结构构造的系统发育树。图4是用现有技术(参见ZhangY,HuangH,DongX,etal.ADynamic3DGraphicalRepresentationforRNAStructureAnalysisandItsApplicationinNon-CodingRNAClassification[J].PlosOne,2016,11(5).)中的方法对9种RNA病毒的二级结构构造的系统发育树。具体实施方式基于DFT的RNA二级结构距离计算构建系统发育树的方法,具体步骤如下:1)RNA二级结构的映射规则:近年来的研究显示RNA序列是由核苷酸单元{A,G,C,U}组成的一长链,并能通过自身的回折后依据特定碱基配对A-U,C-G,G-U之间的氢键形成稳定的二级结构,分别用A,G,C,U符号表示RNA二级结构中未配对的碱基,分别用A’,G’,C’和U’表示RNA二级结构中的配对碱,则可得到RNA二级结构的特征序列。如图1所示的CVV-3的部分RNA二级结构,将图1中的RNA二级结构从5’端到3’端进行序列化表示的特征序列为:GCC’U’C’C’GAAG’G’A’G’AU。使用如下公式(1)表示RNA二级结构的可视化。式(1)中,i=1,2,3....N,xi,yi,zi∈[-1,1];Ai、Ui、Gi、Ci、A'i、U'i、G'i、C'i分别对应表示从上述的RNA二级结构特征序列中第一个碱基到第i个碱基中A,U,G,C和A’,U’,G’,C’中的碱基数量,N为RNA二级结构的所有碱基数量。通过式(1)可以将RNA二级结构中的自由基和配对基表示为一个(3×N)的二维矩阵。2)RNA二级结构x、y和z轴序列的离散傅里叶变换:将步骤1)得到的(3×N)的二维矩阵拆分成只包含[x1,x2,x3......xN]的x轴序列Lx(N),只包含[y1,y2,y3......yN]的y轴序列Ly(N),只包含[z1,z2,z3......zN]的z轴序列Lz(N),分别将L本文档来自技高网...

【技术保护点】
1.基于DFT的RNA二级结构距离计算构建系统发育树的方法,其特征在于,具体步骤如下:1)RNA二级结构的映射规则:用A,G,C,U符号分别表示RNA二级结构中未配对的碱基,用A’,G’,C’和U’分别表示RNA二级结构中的配对碱基,则得到RNA二级结构5’端到3’端的特征序列,通过如下公式(1)将RNA二级结构中的自由基和配对基表示为一个(3×N)的二维矩阵:

【技术特征摘要】
1.基于DFT的RNA二级结构距离计算构建系统发育树的方法,其特征在于,具体步骤如下:1)RNA二级结构的映射规则:用A,G,C,U符号分别表示RNA二级结构中未配对的碱基,用A’,G’,C’和U’分别表示RNA二级结构中的配对碱基,则得到RNA二级结构5’端到3’端的特征序列,通过如下公式(1)将RNA二级结构中的自由基和配对基表示为一个(3×N)的二维矩阵:式(1)中:i=1,2,3....N;xi,yi,zi∈[-1,1];Ai、Ui、Gi、Ci、A'i、U'i、G'i、C'i分别对应表示从上述特征序列中第一个碱基到第i个碱基中A、U、G、C和A’、U’、G’、C’中的碱基数量,N为RNA二级结构的所有碱基数量;2)RNA二级结构x、y和z轴序列的离散傅里叶变换:将步骤1)得到的(3×N)的二维矩阵拆分成只包含[x1,x2,x3......xN]的x轴序列Lx(N),只包含[y1,y2,y3......yN]的y轴序列Ly(N),只包含[z1,z2,z3......zN]的z轴序列Lz(N),分别将Lx(N)、Ly(N)和Lz(N)进行DFT变换,对应得到序列Fx(k)、Fy(k)和Fz(k);所述Lx(N)的DFT变换公式如下:式(2)中,k=0,1...

【专利技术属性】
技术研发人员:昌攀张文影黄毅然钟诚
申请(专利权)人:广西大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1