一种基于图的泛基因组数据组织方法及其系统技术方案

技术编号：34471038 阅读：28 留言：0更新日期：2022-08-10 08:45

本发明专利技术公开了一种基于图的泛基因组数据组织方法、系统、设备和计算机可读存储介质，方法其包括：获取一组泛基因组序列数据；对所述泛基因组序列数据进行构图，得到泛基因组的着色图；标记并获取所述着色图单个结点的访问状态的特征，遍历所述着色图得到将所述着色图分解后的cSupB数据模型、以及cSupB数据模型的数据信息；基于所述cSupB数据模型的数据信息确定所述cSupB数据模型之间的包含关系，根据所述包含关系构建cSupB结构树模型。本发明专利技术克服了目前在针对大量基因组数据时，数据组织方式混乱，对序列的可读性、有效性和完整性都较差的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图的泛基因组数据组织方法及其系统

[0001]本专利技术属于医疗
，具体涉及为一种基于图的泛基因组数据组织方法及其系统。

技术介绍

[0002]生命科学、医药等领域的发展与测序技术的应用息息相关，但是由于测序技术、测序成本甚至计算成本等原因，很多基因组的研究存在很多问题，例如过于依赖参考基因组。目前，参考基因组在很多领域都占据着十分重要的地位，几乎在所有涉及基因组的研究中，人们首先要做的就是为研究物种构造参考基因组，然后基于参考基因组开展不同的后续研究，例如将该物种其他新被测序的个体数据与参考基因组比较发现差异，这种方法在人类基因组学中是寻求疾病基因起源的基础。但是基于参考基因组的方法最大的缺点就是遗漏问题，因为仅仅一条基因组显然不能包含基因组的所有信息，在如今大量物种和个体可以被广泛测序的背景下，以人类为例，如果仍采用传统参考基因组的研究方法，至少有10％的人类基因组序列信息会在参考基因组中被遗漏。
[0003]近年来，随着测序技术的发展使得个体基因组的组装质量不断提高，测序成本的降低也使得测序的数量在不断增多，仍以人类为例，测序样本基因组的组装质量已经可以比肩于GRCh38，目前已有许多可用的基因组组装结果，相信在未来这个数量还会不断增加，不只是人类，其他物种也一样，我们正在从基因组时代逐步进入种群基因组时代。种群基因组时代的到来带来了大量的基因组数据和前所未有研究机遇的同时，也为生物信息学分析方法提出了新的要求和挑战，比如，如何有效地组织大规模种群基因组数据并进行后续分析(如系统发育分析)...

【技术保护点】

【技术特征摘要】
1.一种基于图的泛基因组数据组织方法，包括：获取一组泛基因组序列数据；对所述泛基因组序列数据进行构图，得到泛基因组的着色图；标记并获取所述着色图单个结点的访问状态的特征，遍历所述着色图得到将所述着色图分解后的cSupB数据模型、以及cSupB数据模型的数据信息；基于所述cSupB数据模型的数据信息确定所述cSupB数据模型之间的包含关系，根据所述包含关系构建cSupB结构树模型。2.根据权利要求1所述的基于图的泛基因组数据组织方法，其特征在于，所述着色图单个结点访问状态的特征包括未访问状态，半访问状态，可访问状态和已访问状态；可选的，所述未访问状态为无任何一个入点被访问；半访问状态为至少有一个入点已访问且至少有一个入点未被访问；可访问状态为所有入点已被访问，其自身处于随身可以被访问的状态；已访问状态为该节点所有入点已被访问且自身也已被访问；可选的，所述遍历着色图采用类后序遍历方法；可选的，所述cSupB数据模型为：在着色图G＝(V,E,C)中，V(G)，V(E)和V(C)分别是图G的点集、边集和颜色集。对任意一个颜色集G1＝(V1,E1,C1)是图G的一个子图，满足对任意一个结点u
i
∈V1，对两个不同的点s和t，称为<s,t,C1>一个coloredSuperBubble；s称为的源结点，t为汇结点；可选的，所述cSupB数据模型的数据信息包括但不限于以下信息：源点、汇点、cSupB数据模型的颜色和cSupB数据模型的次序。3.根据权利要求2所述的基于图的泛基因组数据组织方法，其特征在于，所述包含关系是基于所述cSupB数据模型的颜色和cSupB数据模型的次序确定；可选的，cSupB1，cSupB2和cSupB3是任意的cSupB数据模型，令G1＝(V1,E1,C1)，G2＝(V2,E2,C2)和G1＝(V3,E3,C3)，分别是cSupB1，cSupB2和cSupB3包含结点所诱导的子图，如同时满足衡量标准，cSupB1为cSupB2的子cSupB，且cSupB2是cSupB1的父cSupB。4.根据权利要求1
‑
3任一项所述的基于图的泛基因组数据组织方法，其特征在于，所述数据组织方法还包括：基于所述cSupB结构树模型构建泛基因组坐标系；可选的，所述泛基因组坐标系采用三元组的方式表示所述着色图上单个位点的位置特征；可选的，所述三元组的子特征包括：数值信息，拓扑信息和颜色信息。5.根据权利要求4所述的基于图的泛基因组数据组织方法，其特征在于，所述泛基因组坐标系采用六元组的方式表示所述着色图上单条序列的位置特征；可选的，所述六元组的子特征包括：路径起始点的偏移值，路径起始结点所在的最小的cSupB，路径终止点的偏移值，路径终止结点所在的最小的cSupB，同时包含路径起始...

【专利技术属性】
技术研发人员：郭金旦，陈禹保，刘江宁，秦川，
申请(专利权)人：中国医学科学院医学实验动物研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人