高通量测序数据的变异路径图表示方法及其生成方法技术

技术编号:28945323 阅读:38 留言:0更新日期:2021-06-18 21:57
本发明专利技术公开了一种高通量测序数据的变异路径图表示方法及其生成方法,变异路径图包括路径片段和切点,路径片段由一组路径单元从左至右顺序连接组成,路径片段代表一个长度大于等于1的任意序列,路径片段与路径单元的首尾均由切点标记。本发明专利技术定义了变异路径图的数据结构,包括路径片段、路径单元、切点;以及变异路径图表示原始测序数据读段的方法,提出了识别切点的方法,以及建立切点在“变异路径图上的位置”与在“原始测序数据读段上的位置”之间的对应关系的方法,提出了通过切点的追踪,将读段拆分成覆盖不同路径单元的小片段,再归集成为路径单元、连接成为路径片段,最后得到变异路径图的拼接方法。

【技术实现步骤摘要】
高通量测序数据的变异路径图表示方法及其生成方法
本专利技术涉及高通量测序数据的分析与应用领域,具体地说,是一种高通量测序数据的变异路径图表示方法及其生成方法。
技术介绍
高通量测序是现代生物医学研究和应用领域的常用技术。高通量测序的结果是大量的短片段序列信息,称为“读段”。目前常见的读段形式为一对字符串,长度为100-150。其中一个字符串由A、T、C、G组成,代表所测得的序列;另一个字符串由序列的每个位置对应的测序质量数值转化而成的字符组成。高通量测序数据的分析流程,一般需要首先将这些读段的序列,比对到参考基因组的相应位置。然后,依据参考基因组上特定的位置被多少读段覆盖(即覆盖深度)、参考基因组与测得序列在对应位置上的差异,计算一系列生物医学指标,例如:基因表达量、转录因子结合位置、表观遗传修饰位置、基因变异、蛋白变异、可能的新抗原(肽段变异)等。目前这一主流的分析流程存在一定缺陷,主要是:1)由于测序对象的基因组存在个体差异,一部分测序对象特有的基因组序列在参考基因组上不存在,因此这部分测序数据无法比对到参考基因组上。于是,与测序对本文档来自技高网...

【技术保护点】
1.一种测序数据的变异路径图的具体表示方法,其特征在于,所述的变异路径图包括路径片段和切点,所述的路径片段由一组路径单元从左至右顺序连接组成,所述的路径片段代表一个长度大于等于1的任意序列,所述的路径片段与路径单元的首尾均由切点标记。/n

【技术特征摘要】
1.一种测序数据的变异路径图的具体表示方法,其特征在于,所述的变异路径图包括路径片段和切点,所述的路径片段由一组路径单元从左至右顺序连接组成,所述的路径片段代表一个长度大于等于1的任意序列,所述的路径片段与路径单元的首尾均由切点标记。


2.根据权利要求1所述的测序数据的变异路径图的具体表示方法,其特征在于:
所述的路径片段带有一组附加信息:该路径片段的序列的哪个片段,被原始测序数据中的哪个读段覆盖,以及该路径片段的序列的片段与覆盖它的读段的序列的片段之间的对应关系;
所述的路径单元代表一个长度大于等于1的任意序列,是用于组装路径片段的基础数据结构,仅在计算的中间过程中使用,在最终的变异路径图中不呈现;
所述的切点是一个编号,代表路径单元之间的连接,一个路径单元的尾部切点与另一个路径单元的首部切点编号相同,则这两个路径单元从左至右连接;
所述的变异路径图具有分辨率参数K,即变异路径图中,任意连续的(K-1)个字符(可以跨越路径片段)组成的序列不一致;若原始测序数据中,两个读段有(K-1)个连续字符相同,则这两个读段中的这两个(K-1)长度的片段覆盖变异路径图中的同一个长度为(K-1)个字符的路径,该路径可能跨越多个相互连接的路径片段。


3.根据权利要求1或2所述的测序数据的变异路径图的具体表示方法,其特征在于,当路径片段(或路径单元)的首或尾可连接至少两个路径片段(或路径单元)或不能连接任何路径片段(或路径单元)时,该路径片段(或路径单元)的首或尾切点称为一个路径的分叉点。


4.一种测序数据的变异路径图的具体生成方法,其特征在于,利用对切点的识别和追踪,建立“变异路径图中路径片段(或路径单元)的分叉点”、“变异路径图中路径片段序列内部对应于原始测序读段的起点或终点的位置(即路径单元的起点或终点)”与“原始测序读段内序列的位置坐标”之间的关联,利用这一关联实现高效的分布式拼接。


5.根据权利要求4所述的测序数据的变异路径图的具体生成方法,其特征在于,步骤为:首先扫描所有原始测序数据的读段序列,生成所有可能的长度为(K-1)的子序列,并记录该子序列左、右侧的字符,然后将这些长度为(K-1)的子序列聚类,依据每一类长度为(K-1)的子序列的左侧或右侧字符的可能性,识别切点在原始读段序列中的位置,将原始读段序列拆分成由切点标记首尾位置的小片段,再将这些小片段按首尾切点和序列归集,生成路径单元,然后将不分叉的路径单元首尾连接,形成路径片段,得到变异路径图。


6.根据权利要求4或5所述的测序数据的变异路径图的具体生成方法,其特征在于,具体包含以下步骤:
1)对每个原始测序读段,从左到右依次扫描其序列中存在的长度为(K-1)的字符串,生成(K-1)串对象;
2)将步骤1)生成的所有(K-1)串对象,按照其(K-1)长度的字符串聚簇,对每一簇的(K-1)串对象,分配一个独一无二的簇ID(正整数),然后分析每一簇的(K-1)串对象,获得切点-读段位置对象;
3)将步骤2)生成的全部切点-读段位置对象,按其来源读段编号聚簇;然后分析每一簇的切点-读段位置对象,生成路径单元-读段位置对象;
4)将步骤3)生成的全部路径单元-读段位置对象,按起始切点ID,结束切点ID,路径单元序列的三元组聚簇;然后将每一簇路径单元-读段位置对象,映射为一个路径单元对象;
5)对上一步骤生成的全部路径单元对象,执行归并等价切点ID的操作;
6)执行左切点对齐操作,执行右切点对齐操作;
7)重复步骤6),直到在步骤6)的执行过程中,每个聚簇仅包含一个路径单元对象;
8)依据步骤7)生成的路径单...

【专利技术属性】
技术研发人员:沈雪玲
申请(专利权)人:杭州新范式生物医药科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1