当前位置: 首页 > 专利查询>大连大学专利>正文

基于互相关系数的RNA二级结构序列相似性表达方法技术

技术编号:13176794 阅读:235 留言:0更新日期:2016-05-10 20:27
本发明专利技术涉及序列相似性分析领域,设计了一种基于混沌游戏的新的RNA三维表示方法和基于互相关系数的RNA二级结构相似性分析。该方法在原有的二维表示方法上,提出了一种三维表示方法,新的表示方法能够消除原有的表示方法的退化现象。然后,从新的表示图形中,提取出数值特征-新定义的互相关系数来刻画RNA序列的相似性。最后,将该方法应用到9种RNA病毒上来分析方法的可行性。实验结果表明,我们的方法不仅具有可行性,而且从聚类分析的角度看,我们的实验室结果更有利于提取有效数据。

【技术实现步骤摘要】

本专利技术设及新的Ξ维图像表示方法和互相关系数表征RNA二级结构序列的相似 性,具体讲的是新的Ξ维表示方法来表示RNA特征序列并且用互相关系数来刻画RNA二级结 构的相似程度,其属于序列相似性分析领域。
技术介绍
序列比对就是将序列间的碱基进行对齐,通过一定的打分机制使所得的分数最 高,其所得的分数反应了序列间的相似程度。目前序列比对的算法很多,大部分是采用动态 规划思想。化edleman和Wunsch在1970年最早提出双序列全局比对的化edleman-Wwunsch算 法,是一种动态规划算法,后来Smish和Waterman在1981提出双序列局部比对的Smish-Waterman算法。但是动态规划算法会随着序列数量的增加,序列比对的算法复杂性按指数 规律增长。 近年来,非序列方法得到了非常迅速的发展,其最大的特点就是大大增加了计算 的效率。运种方法就是将序列看成一个整体并将其转化为数学对象来进行分析。一种方法 是将序列转化为代数对象,如数值序列、向量、矩阵等,利用现行代数概率统计等数学理论 进行研究。另一种方法是将序列曲线化,将序列相似性分析转化为曲线相似性分析的比较, 如DNA序列的二维表示和Ξ维表示。通过计算曲线间的差异将图形转化为矩阵,利用各个曲 线对应的矩阵不变量差异来刻画序列的相似性。此外还有采用信息论的方法,如Kolmogrov 复杂度法、Kul化ack-Leibler偏差法、概率法等。 DNA,RNA都有一级二级Ξ级结构。一级结构是指四种碱基的排列顺序。DNA的二级 结构是指两条脱氧多核巧酸链反向平行盘绕所形成的双螺旋结构。RNA二级结构是指RNA单 链自身回折形成的部分碱基对(baSe pairS)和单链交替的茎环结构,所W RNA二级结构比 DNA二级结构要复杂的多。DNA的Ξ级结构是指DNA中单链与双链、双链之间的相互作用形成 的Ξ链或四链结构。RNAS级结构则是由各二级结构单元(motif)之间相互作用并在空间中 形成稳定的定位和取向而构成.RNA的种类有主要有核糖体RNA,转移RNA W及信使RNA.他们 的主要功能是参与蛋白质的合成。因此,RNA二级结构的研究有助于了解它们W及蛋白质之 间的关系,更好的研究物种之间的关系。DNA本质上仅有一种功能即编码信息,而RNA含有很 多种类,其行使的功能也比DNA要多。后来发现的反义RNAW及具有催化作用的RNA细胞核小 分子RNA,核仁小分子RNA都具有重要的生物学功能和广阔的应用前景。[000引用于计算RNA二级结构之间的相似性的算法很多。到目前为止,几乎所有的运种比 较是基于RNA的结构的比对:一个距离函数或一个得分函数用来插入,删除和字母替换用于 在被比较的结构之中。使用距离函数,可W计算出的RNA结构之间的相似性。根据一些研究人员的对DNA序列的研究工作,廖和王提出用图表来表示RNA二级结 构,然后得出一些数值不变量,从图形来比较RNA二级结构。自那时W来,不同的图形表示方 法被广泛应用到研究RNA二级结构之间的相似性分析。图形表示的优点是,其数据具有可视 性,能够帮助识别RNA二级结构之间的主要区别。此外,根据该表示,一些数值特征被选择为 不变量应用到各种RNA二级结构的比较中。 本专利主要研究RNA序列的相似性,首先将RNA序列转化为图形,我们在原有图形 表示的基础上,提出一种新的Ξ维的图形表示。然后从中提取出我们所需要的数值序列,最 后通过我们提出的互相关系数公式来分析九种病毒的相似性。
技术实现思路
鉴于已有生产方法存在的缺陷,本专利技术提供本专利技术的目的在于提供基于互相关系 数的RNA二级结构序列相似性表达方法,首先,在原有的二维表示方法上,提出了一种新的 Ξ维表示方法,新的表示方法能够消除原有的表示方法的退化现象。然后,从新的表示图形 中,提取出数值特征-新定义的互相关系数来刻画RNA序列的相似性。新的Ξ维表示方法和 数值特征都能够很好的反应生物信息,防止生物信息的丢失。 为实现上述目的,本专利技术所采用的方法是基于互相关系数的RNA二级结构序列相 似性表达方法,具体方法步骤如下: S1、将RNA二级结构用RNA二级结构特征序列表示; S2、将RNA二级结构特征序列中的每个碱基对应到Ξ维空间中的初始位置; S3、利用碱基对应公式将每条RNA二级结构特征序列的碱基映射成Ξ维空间中的 一系列的点,将运些点按顺序连接得到RNA二级结构的Ξ维图形表示,该Ξ维图形表示是在 原有二维表示的基础上改进而得到的; S4、将所有待比较的序列连接成一个长序列,并将长序列代入到S3中,得到长序列 的Ξ维图形表示; S5、将每一条待比较的序列与S4中得到的长序列做比较,代入到互相关系数公式 中,得到每一条待比较的序列的相关系数; S6、通过S5中所得到的相关系数求出两两待比较的序列之间的欧氏距离,用得到 的欧氏距离来表示RNA二级结构序列的相似性。 所述S1中RNA二级结构特征序列是将RNA二级结构序列应用混浊游戏表示方法来 表示碱基,将碱基对中的碱基和自由基中的碱基用不同的方式来表示,同时按照前后碱基 之间的关系顺序得到RNA二级结构的特征序列,具体为: 将RNA序列用一系列的碱基来表示,碱基对中的碱基用A,U,G,C来表示,而自由基 中的碱基用护1/表示,运样便可W得到RNA二级结构的特征序列;将每个碱基对应到Ξ 维空间中不同的初始位置,初始位置如下:碱基对应公式为知瓜马)=((.Vi + .、)/ 2,妃1十私)/ 2,1-1巧,其中Xi,y i,Z i表示将 碱基表示成Ξ维空间的Ξ个维度的数值,Λ表示碱基代表的初始数值。[002。 利用碱基对应公式(λ-,.,肛Ζ,·)=(知1 + .\ )/2,(义-1 +.V,, )/2,1-1/7)将每条RNA二级结构 特征序列的碱基映射成Ξ维空间中的一系列的点,将运些点按顺序连接可W得到RNA二级 结构的新的图形表示。原来的二维的序列表示只是一个二维的表示,其初始化公式如下: 映射成二维空间中的点的公式为(.V·),,)=似,-1 +X、)/2,化1 +.1,,,)/巧。运是原有 的二维图形表示。在所有计算X、,的公式中,^,的计算公式如下: 在提取数值特征时,我们提取的是互相关系数,是在原有的自相关系数的基础上 提出的,自相关公式是自身序列与自身序列的自相关系数,公式为:[002引其中η=1,2,……10,hi是序列第i个碱基的坐标。每个序列都有10维的自相关系 数,加上序列中每个碱基的概率组成一个18维的向量,最后求得每个向量之间的欧氏距离 作为最后的数值特征来刻画相似度。 自相关系数不能直观的反应出序列之间的关系,所W我们提出互相关系数来刻画 数值特征。在提取互相关系数时,首先将所有的要比较的序列连接成一个长序列;然后再求 出要比较的序列跟连接成的长序列之间的互相关系数,其中互相关系数公式为: 其中Nx是要比较的序列的长度,而Ny是连接成的长序列的长度,於是X序列上第i 个碱基的坐标,坐标就是Ξ维表示出的序列的坐标。最后求出两两之间的互相关系数的欧 氏距离,用其作为数值特征刻画相似程度。 本专利技术与现有技术相比具有W下优点: 1、新的Ξ维表示方法消除了原有表示方法的本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105488358.html" title="基于互相关系数的RNA二级结构序列相似性表达方法原文来自X技术">基于互相关系数的RNA二级结构序列相似性表达方法</a>

【技术保护点】
基于互相关系数的RNA二级结构序列相似性表达方法,其特征在于,步骤如下:S1、将RNA二级结构用RNA二级结构特征序列表示;S2、将RNA二级结构特征序列中的每个碱基对应到三维空间中的初始位置;S3、利用碱基对应公式将每条RNA二级结构特征序列的碱基映射成三维空间中的一系列的点,将这些点按顺序连接得到RNA二级结构的三维图形表示;S4、将所有待比较的序列连接成一个长序列,并将长序列代入到S3中,得到长序列的三维图形表示;S5、将每一条待比较的序列与S4中得到的长序列做比较,代入到互相关系数公式中,得到每一条待比较的序列的相关系数;S6、通过S5中所得到的相关系数求出两两待比较的序列之间的欧氏距离,用得到的欧氏距离来表示RNA二级结构序列的相似性。

【技术特征摘要】

【专利技术属性】
技术研发人员:张强邢姗姗王宾魏小鹏
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1