基因序列的可视化处理方法技术

技术编号:15191394 阅读:89 留言:0更新日期:2017-04-20 09:04
本发明专利技术揭示了一种基因序列的可视化处理方法:步骤1、获得待比对的DNA曲线的曲率序列和饶率序列;步骤2、利用Z‑曲线表示待比对的DNA曲线的曲率序列和饶率序列;步骤3、获得待比对的DNA之间两个曲率序列中相同项的个数,以及两个饶率序列中相同项的个数。本发明专利技术利用3D图形的曲率序列和饶率序列来表示基因序列,这两个序列一起可以体现序列的内在特征,基因序列的Z‑曲线是一类典型的3D曲线,我们给出Z‑曲线的两类数值序列的计算方法,可以将Z‑曲线的曲率序列转换为仅含0,1的数值序列,将Z‑曲线的饶率序列转换为仅含0,1和‑1的数值序列.我们可以直接根据基因序列直接、快速地得到这两类数值序列。

【技术实现步骤摘要】

本专利技术涉及可以应用于DNA分析的基因序列3D表示方法。
技术介绍
近年来,基因序列的图形表示广泛应用于基因序列的可视化,分类和比对等方面.该方法的主要思想是将基因序列转换为不同维数的几何图形.最常见的图形是2D(平面)图形和3D(空间)图形。1983年,Hamori和Ruskin首先提出基因序列的3D表示,后来,人们提出越来越多的曲线来表示基因序列.为了得到不同基因序列的相似性特征,人们利用曲线得到一些高维矩阵或者向量来简化生物序列比对.一般来说,基因序列的图形表示理论可以分成两个部分:基因的图形表示和基于图形特征的相似性度量。在基因序列的不同曲线表示中,张春霆院士于1991年提出的Z-曲线是用来分析基因序列的典型曲线,Z-曲线是一条3D曲线,每一个DNA序列都可以用Z-曲线来唯一表示.在2014年,张春霆和张任撰文给出Z-曲线的一个概述,并给出它们的一些应用:Z-曲线是获取DNA信息的一类典型图形表示并可以应用在DNA序列分析的诸多领域.Z-曲线上包含了DNA序列所携带的所有信息。然而,目前缺乏一种能够用于DNA序列3D表示的曲率序列和饶率序列,缺乏相关序列应用于DNA分析的处理方法。
技术实现思路
本专利技术所要解决的技术问题是实现一种将DNA序列转化为3D表示的曲率序列和饶率序列,这两个数值序列包含了DNA序列上3D表示的所有本质特征,可以应用于DNA分析方面。为了实现上述目的,本专利技术采用的技术方案为:基因序列的可视化处理方法:步骤1、获得待比对的DNA曲线的曲率序列和饶率序列;步骤2、利用Z-曲线表示待比对的DNA曲线的曲率序列和饶率序列;步骤3、获得待比对的DNA之间两个曲率序列中相同项的个数,以及两个饶率序列中相同项的个数。本专利技术利用3D图形的曲率序列和饶率序列来表示基因序列,这两个序列一起可以体现序列的内在特征,基因序列的Z-曲线是一类典型的3D曲线,我们给出Z-曲线的两类数值序列的计算方法,可以将Z-曲线的曲率序列转换为仅含0,1的数值序列,将Z-曲线的饶率序列转换为仅含0,1和-1的数值序列.我们可以根据基因序列直接、快速地得到这两类数值序列。附图说明下面对本专利技术说明书中每幅附图表达的内容作简要说明:图1(a)为人类基因序列Z-曲线的曲率序列;图2(a)为黑猩猩基因序列Z-曲线的曲率序列;图3(a)为灰海豹基因序列Z-曲线的曲率序列;图4(a)为港海豹基因序列Z-曲线的曲率序列;图5(a)为老鼠基因序列Z-曲线的曲率序列;图6(a)为大家鼠基因序列Z-曲线的曲率序列;图7(a)为大袋鼠基因序列Z-曲线的曲率序列;图8(a)为大猩猩基因序列Z-曲线的曲率序列;图1(b)为人类基因序列Z-曲线的饶率序列;图2(b)为黑猩猩基因序列Z-曲线的饶率序列;图3(b)为灰海豹基因序列Z-曲线的饶率序列;图4(b)为港海豹基因序列Z-曲线的饶率序列;图5(b)为老鼠基因序列Z-曲线的饶率序列;图6(b)为大家鼠基因序列Z-曲线的饶率序列;图7(b)为大袋鼠基因序列Z-曲线的饶率序列;图8(b)为大猩猩基因序列Z-曲线的饶率序列图9是八个物种的分类结果线形图;具体实施方式三维向量空间中的3D曲线有两个基本特征,即曲线的曲率和饶率。曲线的曲率是曲线弯曲程度的度量,曲线的饶率是描述曲线距离平面翘起的程度。2D曲线的所有基本特征可以由曲线曲率完全刻画,而3D曲线的所有基本特征可以由曲率和饶率两个变量完全刻画。空间曲线的形状由曲率和绕率唯一确定,这一特征可以帮助我们认识基因序列的本质特征。例如,两条反向平行的多核苷酸链相互缠绕形成一个右手的双螺旋结构,A-T或G-C通过氢键作用成对出现,这两条链具有完全相同的曲率和饶率,而且我们也可以根据给定的曲率和饶率来确定DNA序列。一般地,我们使用曲线上一点处内切圆半径的倒数来度量该点处的曲率,即光滑曲线该点处曲率K是对于DNA序列的图形表示,所得到的曲线往往不是光滑的,于是我们给出分段光滑曲线曲率的如下定义,设G是一段DNA序列,第i个位置是gi,gi∈{A,T,G,C本文档来自技高网...
基因序列的可视化处理方法

【技术保护点】
基因序列的可视化处理方法,其特征在于:步骤1、获得待比对的DNA曲线的曲率序列和饶率序列;步骤2、利用Z‑曲线表示待比对的DNA曲线的曲率序列和饶率序列;步骤3、获得待比对的DNA之间两个曲率序列中相同项的个数,以及两个饶率序列中相同项的个数。

【技术特征摘要】
1.基因序列的可视化处理方法,其特征在于:步骤1、获得待比对的DNA曲线的曲率序列和饶率序列;步骤2、利用Z-曲线表示待比对的DNA曲线的曲率序列和饶率序列;步骤3、获得待比对的DNA之间两个曲率序列中相同项的个数,以及两个饶率序列中相同项的个数。2.根据权利要求1所述的基因序列的可视化处理方法,其特征在于,所述步骤1中曲率序列和饶率序列的获得方法:曲率序列获得方法:设G=g1g2…gN是长度为N的DNA序列,Pi是G的曲线表示L中gi对应的点,则曲线L在点Pi处的曲率定义为κi,DNA序列G表示曲线L的曲率序列定义为则:在三角形PiPjPk中,i,j,k是相邻的三个正整数,其中j=i+1,k=j+1,令rijk=rij+rik+rjk为三角形PiPjPk的三边长之和,Sijk为三角形PiPjPk的面积,为三角形PiPjPk的内切圆半径,则点Pi处的曲率为κi=2Sijk/rijk;饶率序列获得方法:设G=g1g2…gN是长度为N的DNA序列,Pi是G的曲线表示L中gi对应的点,则曲线L在点Pi处的饶率定义为τi,DNA序列G的表示曲线L的饶率序列定义为则:在四面体PhPiPjPk中,h,i,j,k是四个连续正整数,其中i=h+1,j=i+1,k=j+1.令Vh为四面体PhPiPjPk的体积,Shij,Shjk,Shik,Sijk分别表示三角形PhPiPj,PiPjPk,PhPiPk,PiPjPk的面积,为四面体PhPiPjPk内接球半径且其中则点Pi处的饶率为当òh>0时,τh的值为正;当òh<0时,τh的值为负;当DNA序列的表示曲线,则四个碱基A,C,T,G的关系矩阵:M=rAArACrATrAGrCArCCrCTrCGrTArTCrTTrTGrGArGCrGTrGG,]]>通过所述曲率序列获得方法和饶率序列获得方法可获得DNA表示曲线的曲率序列和饶率序列。3.根据权利要求2所述的基因序列的可视化处理方法,其特征在于,所述步骤2中利用Z-曲线表示待比对的DNA曲线的曲率序列和饶率序列的方法:Z-曲线的三个坐标公式为xn=2(An+Gn)-nyn=2(An+Cn)-nzn=2(An+T...

【专利技术属性】
技术研发人员:孙翠芳程智
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1