一种基于图的泛基因组数据组织方法及其系统技术方案

技术编号:34471038 阅读:28 留言:0更新日期:2022-08-10 08:45
本发明专利技术公开了一种基于图的泛基因组数据组织方法、系统、设备和计算机可读存储介质,方法其包括:获取一组泛基因组序列数据;对所述泛基因组序列数据进行构图,得到泛基因组的着色图;标记并获取所述着色图单个结点的访问状态的特征,遍历所述着色图得到将所述着色图分解后的cSupB数据模型、以及cSupB数据模型的数据信息;基于所述cSupB数据模型的数据信息确定所述cSupB数据模型之间的包含关系,根据所述包含关系构建cSupB结构树模型。本发明专利技术克服了目前在针对大量基因组数据时,数据组织方式混乱,对序列的可读性、有效性和完整性都较差的问题。的问题。的问题。

【技术实现步骤摘要】
一种基于图的泛基因组数据组织方法及其系统


[0001]本专利技术属于医疗
,具体涉及为一种基于图的泛基因组数据组织方法及其系统。

技术介绍

[0002]生命科学、医药等领域的发展与测序技术的应用息息相关,但是由于测序技术、测序成本甚至计算成本等原因,很多基因组的研究存在很多问题,例如过于依赖参考基因组。目前,参考基因组在很多领域都占据着十分重要的地位,几乎在所有涉及基因组的研究中,人们首先要做的就是为研究物种构造参考基因组,然后基于参考基因组开展不同的后续研究,例如将该物种其他新被测序的个体数据与参考基因组比较发现差异,这种方法在人类基因组学中是寻求疾病基因起源的基础。但是基于参考基因组的方法最大的缺点就是遗漏问题,因为仅仅一条基因组显然不能包含基因组的所有信息,在如今大量物种和个体可以被广泛测序的背景下,以人类为例,如果仍采用传统参考基因组的研究方法,至少有10%的人类基因组序列信息会在参考基因组中被遗漏。
[0003]近年来,随着测序技术的发展使得个体基因组的组装质量不断提高,测序成本的降低也使得测序的数量在不断增多,仍以人类为例,测序样本基因组的组装质量已经可以比肩于GRCh38,目前已有许多可用的基因组组装结果,相信在未来这个数量还会不断增加,不只是人类,其他物种也一样,我们正在从基因组时代逐步进入种群基因组时代。种群基因组时代的到来带来了大量的基因组数据和前所未有研究机遇的同时,也为生物信息学分析方法提出了新的要求和挑战,比如,如何有效地组织大规模种群基因组数据并进行后续分析(如系统发育分析)是研究者亟待解决的问题。
[0004]面对大量基因组数据,基因组图作为一种有效的数据组织方式被广泛应用,但是为了后续研究,需要尽量在序列信息完整性的同时保证数据结构的有效性和简洁性,目前相关研究有很多,但是大部分数据组织比较混乱,可读性、信息完整性都比较差。
[0005]为了解决目前在针对大量基因组数据时,数据组织方式混乱,对序列的可读性、有效性和完整性都较差的问题,提供一种基于图的泛基因组数据组织方法及其系统。

技术实现思路

[0006]为了克服
技术介绍
中提出的问题,本专利技术提供一种基于图的泛基因组数据组织方法及其系统。
[0007]一种基于图的泛基因组数据组织方法,包括:
[0008]获取一组泛基因组序列数据;
[0009]对所述泛基因组序列数据进行构图,得到泛基因组的着色图;
[0010]标记并获取所述着色图单个结点的访问状态的特征,遍历所述着色图得到将所述着色图分解后的cSupB数据模型、以及cSupB数据模型的数据信息;
[0011]基于所述cSupB数据模型的数据信息确定所述cSupB数据模型之间的包含关系,根
据所述包含关系构建cSupB结构树模型。
[0012]所述着色图单个结点访问状态的特征包括未访问状态,半访问状态,可访问状态和已访问状态;
[0013]可选的,所述未访问状态为无任何一个入点被访问;半访问状态为至少有一个入点已访问且至少有一个入点未被访问;可访问状态为所有入点已被访问,其自身处于随身可以被访问的状态;已访问状态为该节点所有入点已被访问且自身也已被访问;
[0014]可选的,所述遍历着色图采用类后序遍历方法;
[0015]可选的,所述cSupB数据模型为:在着色图G=(V,E,C)中,V(G),V(E)和V(C)分别是图G的点集、边集和颜色集。对任意一个颜色集G1=(V1,E1,C1)是图G的一个子图,满足对任意一个结点u
i
∈V1,对两个不同的点s和t,称为<s,t,C1>一个colored SuperBubble;s称为的源结点,t为汇结点;
[0016]可选的,所述cSupB数据模型的数据信息包括但不限于以下信息:源点、汇点、cSupB数据模型的颜色和cSupB数据模型的次序。
[0017]所述包含关系是基于所述cSupB数据模型的颜色和cSupB数据模型的次序确定;
[0018]可选的,cSupB1,cSupB2和cSupB3是任意的cSupB数据模型,令G1=(V1,E1,C1),G2=(V2,E2,C2)和G1=(V3,E3,C3),分别是cSupB1,cSupB2和cSupB3包含结点所诱导的子图,如同时满足衡量标准,cSupB1为cSupB2的子cSupB,且cSupB2是cSupB1的父cSupB;
[0019]所述数据组织方法还包括:基于所述cSupB结构树模型构建泛基因组坐标系;
[0020]可选的,所述泛基因组坐标系采用三元组的方式表示所述着色图上单个位点的位置特征;
[0021]可选的,所述三元组的子特征包括:数值信息,拓扑信息和颜色信息。
[0022]所述泛基因组坐标系采用六元组的方式表示所述着色图上单条序列的位置特征;
[0023]可选的,所述六元组的子特征包括:路径起始点的偏移值,路径起始结点所在的最小的cSupB,路径终止点的偏移值,路径终止结点所在的最小的cSupB,同时包含路径起始结点和终止结点的最小cSupB,路径的颜色;所述六元组的子特征记作:startpos,startbub,endpos,endbub,pathbub,pathcolor。
[0024]基于所述着色图上单条序列的位置特征确定至少两个单条序列之间的相互关系;所述两个单条序列的位置特征分别为:path1:(startpos1,startbub1,endpos1,endbub1,pathbub1,pathcolor1)和path2:(startpos2,startbub2,endpos2,endbub2,pathbub2,pathcolor2),(startpos1,endpos1)和(startpos2,endpos2)无交,输出path1和path2相离;(startpos1,endpos1)和(startpos2,endpos2)相互包含,且pathcolor1和pathcolor2存在包含关系,但颜色包含关系和区间包含关系相反,输出path1和path2包含;非上述情况,输出path1和path2相交。
[0025]获取所述泛基因组序列数据后,进行预处理,所述预处理采用包括碱基替换、添加序列片段的方法;
[0026]可选的,所述碱基替换的方法是为应对所述泛基因组序列数据存在简并碱基序列时,将该碱基替换成该位点其他系列出现频率最高的碱基;
[0027]可选的,所述添加序列片段是在所述泛基因组序列数据的头部和尾部分别添加相
同序列片段;
[0028]可选的,基于所述预处理后,所述泛基因组的着色图为有向、无环、无简并碱基,且有唯一的起点和终点的图。
[0029]一种基于图的泛基因组数据组织方法的分析设备,所述设备包括:存储器和处理器;
[0030]所述存储器用于存储程序指令;
[0031]所述处理器用于调用程序指令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图的泛基因组数据组织方法,包括:获取一组泛基因组序列数据;对所述泛基因组序列数据进行构图,得到泛基因组的着色图;标记并获取所述着色图单个结点的访问状态的特征,遍历所述着色图得到将所述着色图分解后的cSupB数据模型、以及cSupB数据模型的数据信息;基于所述cSupB数据模型的数据信息确定所述cSupB数据模型之间的包含关系,根据所述包含关系构建cSupB结构树模型。2.根据权利要求1所述的基于图的泛基因组数据组织方法,其特征在于,所述着色图单个结点访问状态的特征包括未访问状态,半访问状态,可访问状态和已访问状态;可选的,所述未访问状态为无任何一个入点被访问;半访问状态为至少有一个入点已访问且至少有一个入点未被访问;可访问状态为所有入点已被访问,其自身处于随身可以被访问的状态;已访问状态为该节点所有入点已被访问且自身也已被访问;可选的,所述遍历着色图采用类后序遍历方法;可选的,所述cSupB数据模型为:在着色图G=(V,E,C)中,V(G),V(E)和V(C)分别是图G的点集、边集和颜色集。对任意一个颜色集G1=(V1,E1,C1)是图G的一个子图,满足对任意一个结点u
i
∈V1,对两个不同的点s和t,称为<s,t,C1>一个coloredSuperBubble;s称为的源结点,t为汇结点;可选的,所述cSupB数据模型的数据信息包括但不限于以下信息:源点、汇点、cSupB数据模型的颜色和cSupB数据模型的次序。3.根据权利要求2所述的基于图的泛基因组数据组织方法,其特征在于,所述包含关系是基于所述cSupB数据模型的颜色和cSupB数据模型的次序确定;可选的,cSupB1,cSupB2和cSupB3是任意的cSupB数据模型,令G1=(V1,E1,C1),G2=(V2,E2,C2)和G1=(V3,E3,C3),分别是cSupB1,cSupB2和cSupB3包含结点所诱导的子图,如同时满足衡量标准,cSupB1为cSupB2的子cSupB,且cSupB2是cSupB1的父cSupB。4.根据权利要求1

3任一项所述的基于图的泛基因组数据组织方法,其特征在于,所述数据组织方法还包括:基于所述cSupB结构树模型构建泛基因组坐标系;可选的,所述泛基因组坐标系采用三元组的方式表示所述着色图上单个位点的位置特征;可选的,所述三元组的子特征包括:数值信息,拓扑信息和颜色信息。5.根据权利要求4所述的基于图的泛基因组数据组织方法,其特征在于,所述泛基因组坐标系采用六元组的方式表示所述着色图上单条序列的位置特征;可选的,所述六元组的子特征包括:路径起始点的偏移值,路径起始结点所在的最小的cSupB,路径终止点的偏移值,路径终止结点所在的最小的cSupB,同时包含路径起始...

【专利技术属性】
技术研发人员:郭金旦陈禹保刘江宁秦川
申请(专利权)人:中国医学科学院医学实验动物研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1