【技术实现步骤摘要】
【国外来华专利技术】用于在基因组图中有效识别和提取序列路径的系统和方法
[0001]本文公开的各种示例性实施例总体上涉及用于在基因组图中有效识别和提取序列路径的系统和方法。
技术介绍
[0002]线性参考基因组是目前在对下一代测序(NGS)数据的处理和分析(例如,读取结果比对(read alignment)和变体识别(variant calling))中使用的最普遍的模型。它基于对单个路径(优选覆瓦式路径(tiling path))的使用来产生基因组的单个共识表示。例如,线性参考NCBI GRCh38(Hg38)是复合基因组,其具有大约93%的主要组件,这些主要组件包含来自11个个体的序列。尽管线性参考基因组因其易于参考且对计算分析的要求较低而受到科学家的欢迎,单个覆瓦式路径也不足以表示针对大多数哺乳动物基因组的复杂基因组区域中的等位基因多样性。由于排除了大量的常见基因组变异,线性参考基因组引入了普遍的参考偏差,这对下游分析的准确性产生了负面影响。例如,如果包含患者的临床相关突变的基因组区域与参考基因组显著不同,则患者的在该区域中的测序读取结果 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于由处理器生成并存储表示多个个体基因组的基因组图的方法,包括:在数据存储装置中存储初始参考基因组序列;接收要并入参考中的个体基因组;根据所述参考基因组来识别所述个体基因组中的变化;根据所述参考基因组来生成针对所述个体基因组中的每个变化的图边缘;针对每个生成的图边缘生成:边缘标识符,其唯一地标识所述基因组图中的当前边缘;开始边缘标识符,其标识所述当前边缘从中分支的边缘;开始位置,其指示在开始边缘上充当所述当前边缘的锚定点的位置;结束边缘标识符,其标识所述当前边缘加入其中的边缘;结束位置,其指示在结束边缘上充当所述当前边缘的锚定点的位置;序列,其指示所述当前边缘的核苷酸序列;并且在所述数据存储装置中存储针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置以及所述序列;通过将所生成的边缘合并到现有参考中来创建扩展的图参考基因组;并且重复该过程,直到生成所有个体基因组的边缘并将其并入结果得到的基因组图中为止。2.根据权利要求1所述的方法,其中,针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置以及所述序列被存储为数据表中的行。3.根据权利要求1所述的方法,还包括:针对每个生成的图边缘生成指示所述序列的长度的长度;并且在所述数据存储装置中存储所述长度。4.根据权利要求3所述的方法,其中,针对每个生成的图边缘的所述边缘标识符、所述开始边缘标识符、所述开始位置、所述结束边缘标识符、所述结束边缘位置、所述序列以及所述长度被存储为数据表中的行。5.根据权利要求4所述的方法,还包括:将针对所生成的边缘中的每个边缘的所述序列进行串联并将其存储在与所述数据表分开的序列数据结构中。6.根据权利要求1所述的方法,还包括:在所述基因组图中指定路径,其中,所述路径是通过以下各项定义的:指示所述路径的起点的位置,所述路径包括染色体标识符、所述边缘标识符以及碱基位置;指示所述路径中的核苷酸的总数的路径长度;以及踪迹,其包括由所述路径使用分隔符遍历的一连串边缘标识符。7.根据权利要求6所述的方法,其中,使用一种分隔符符号来指代所有类型的边缘转变,或者使用多种分隔符符号来指代不同类型的边缘转变,所述不同类型的边缘转变例如为分支转变和端点转变。8.根据权利要求6所述的方法,还包括:通过基于下一边缘的默认优先级的假设从所述踪迹中移除边缘标识符来简化所述踪迹。
9.根据权利要求1所述的方法,其中,所述边缘标识符包括组标识符和边缘索引,其中,所述组标识符标识一组相关边缘,并且所述边缘索引唯一地标识组内的边缘。10.根据权利要求9所述的方法,其中,所述组标识符标识来自同一起源的一组边缘,所述同一起源例如为个体样本。11.根据权利要求1所述的方法,还包括:通过添加以下额外的数据字段来延伸测序读取结果比对文件(SAM):所述读取结果的开始部分被比对到的特定边缘的所述边缘标识符;模板的下一读取结果被主要比对到的特定边缘的ENEXT标识符;指示由所述读取结果被比对到的路径采用的边缘转变的经分隔的序列的踪迹;以及指示由所述模板的所述下一读取结果被主要比对到的路径采用的边缘转变的经分隔的序列的TNEXT。12.根据权利要求1所述的方法,还包括:通过添加以下额外的数据字段来延伸变体识别文件(VCF):指示通向来自上游锚点的变体的位置的边缘转变的序列的踪迹,所述上游锚点是通过使用现有字段CHROM和POS来指定的,其中,CHROM被延伸以指定染色体ID和边缘ID,并且POS指定从所述染色体或所述边缘的开始部分以来的碱基数量;以及指示从所述上游锚点到所述变体的所述碱基数量的距离的距离。13.根据权利要求1所述的方法,还包括:通过以下操作来延伸MPEG
‑
G文件:添加以下额外的数据字段:向解码器指示应当如何解读基因组坐标的coordinate_scheme字段;以及每个基因组记录中的trail字段,所述trail字段指示针对mapping_pos中的每个比对位置的、同一记录中的所有模板片段被比对到的边缘转变的序列;如下地使用所述MPEG
‑
G文件数据字段:seq_ID指示第一读取结果的开始部分被映射到的染色体中的边缘;split_seq_ID指示任何拆分段比对的开始边缘;并且位置mapping_pos和split_pos分别从seq_ID和split_seq_ID中的边缘的开始部分进行计数。14.根据权利要求1所述的方法,还包括用于通过以下操作来确定参考边缘上的经由最短路径连接到目标点或边缘的上游端和下游端的锚点的算法:使用在目标的端点之间的、连接节点的多个碱基作为距离来从所述目标的所述端点中的一个端点开始运行Dijkstra算法,直到所述参考边缘处于具有在除了不能进一步延伸的叶节点之外的所有叶节点中的最短距离的生成树上为止。15.根据权利要求1所述的方法,还包括用于确定沿着所述基因组图中的特定路径的序列的算法:遍历定义所述路径的踪迹,其中,所述踪迹包括由所述路径遍历的一连串边缘标识符;并且将与由所述路径遍历的所识别的边缘的部分相对应的序列进行串联。16.一种利用指令进行编码的非瞬态计算机可读存储介质,所述指令用于由处理器生成并存储表示多个个体基因组的基因组图,所述非瞬态机器可读存储介质包括:
用于在数据存储装置中存储初始参考基因组序列的指令;用于接收要并入参考中的个体基因组的指令;用于根据所述参考基因组来识别所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。