高通量测序数据的处理方法、处理装置、存储介质及处理器制造方法及图纸

技术编号:18445366 阅读:51 留言:0更新日期:2018-07-14 10:33
本发明专利技术提供了一种高通量测序数据的处理方法、处理装置、存储介质及处理器。该处理方法包括获取二级测序序列,二级测序序列为高通量测序数据中能够被目的片段扩增引物识别,且去除对应的扩增引物后的测序序列;比对二级测序序列与参考基因组序列,获得初级变异结果;以及利用已知突变数据中的突变数据修正初级变异结果,得到处理结果。通过根据已知的引物信息从高通量测序得到的原始数据中将每条序列中的引物部分去除,减少了扩增产物交叠区域内存在引物突变而造成的假阳性处理结果。还可以将高通量测序数据中一些错误扩增的序列去除,既提高后续分析的准确性,又有助于降低整体数据量提高分析效率。

High throughput sequencing data processing method, processing device, storage medium and processor

The invention provides a processing method, a processing device, a storage medium and a processor for high-throughput sequencing data. The method includes the acquisition of two sequence sequencing sequences, and the two sequence sequence sequence can be amplified by the target fragment to be amplified by primer identification in high throughput sequencing data and to remove the sequence of the corresponding amplification primers. The results of primary mutation are obtained by comparing the sequence of two sequencing and the reference genome sequence, and the known mutation data are used. The mutation data are used to correct the primary variation results and the processing results are obtained. The primer portion of each sequence was removed from the original data obtained from high throughput sequencing according to the known primer information. The result of false positive treatment caused by the primer mutation in the overlapped region of the amplified product was reduced. It can also remove some erroneous sequences from high throughput sequencing data, which not only improves the accuracy of subsequent analysis, but also helps to reduce the overall data and improve the efficiency of analysis.

【技术实现步骤摘要】
高通量测序数据的处理方法、处理装置、存储介质及处理器
本专利技术涉及高通量测序数据的处理领域,具体而言,涉及一种高通量测序数据的处理方法、处理装置、存储介质及处理器。
技术介绍
目前,对基因测序来检测突变的方法有很多。其中通过多重扩增对特定目标区域进行特异性扩增,并对产物进行高通量测序是一种高效、经济的常用方法。然而,高通量测序过程会产生大量的序列信息,因而,如何快速准确地处理这些测序数据信息,便成为一个亟待解决的技术问题。尽管现有技术中有许多高通量测序数据的处理分析方法,但这些方法存在处理结果准确性低的缺陷。因此,仍需要对现有的测序数据的处理方法进行改进。
技术实现思路
本专利技术的主要目的在于提供一种高通量测序数据的处理方法、处理装置、存储介质及处理器,以解决现有的处理结果中存在假阳性位点多的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种高通量测序数据的处理方法,该处理方法包括:获取二级测序序列,二级测序序列为高通量测序数据中能够被目的片段扩增引物识别,且去除对应的扩增引物后的测序序列;比对二级测序序列与参考基因组序列,获得初级变异结果;以及利用已知突变数据中的突变数据修正初级变异结果,得到处理结果。进一步地,获取二级测序序列的步骤包括:过滤下机的高通量测序数据中低质量的测序数据,获得一级测序序列,低质量的测序数据是指Q20低于80%或N碱基比例大于10%的测序序列;利用目的片段的扩增引物识别一级测序序列,得到识别序列;以及去除识别序列中对应的扩增引物,得到二级测序序列。进一步地,比对二级测序序列与参考基因组序列,得到初级变异结果的步骤包括:根据目的片段的扩增引物的位置信息,从参考基因组序列上截取对应的目的片段的参考比对序列;将二级测序序列与参考比对序列进行比对,得到初级变异结果。进一步地,在将二级测序序列与参考比对序列进行比对之后,以及得到初级变异结果之前,处理方法还包括:将二级测序序列与参考比对序列进行比对,得到比对序列;根据扩增引物的位置信息,判断比对序列中是否存在异常序列,异常序列指比对质量低于第一阈值的序列或者与参考比对序列的信息不一致的序列;若存在,则从比对序列中过滤掉异常序列,并统计剩余序列的每个位置与参考比对序列的异同,得到初级变异结果。进一步地,利用已知突变数据中的突变数据修正初级变异结果,得到处理结果的步骤包括:从已知突变数据中筛选出目的片段对应区域内的已知突变数据,得到已知突变的局部序列;从初级变异结果中筛选同时也出存在于已知突变数据中的变异位点,形成初级变异结果的局部序列;将初级变异结果的局部序列与已知突变的局部序列进行比对,得到处理结果。进一步地,将初级变异结果的局部序列与已知突变的局部序列进行比对,得到处理结果的步骤包括:将初级变异结果的局部序列与已知突变的局部序列进行比对,得到二级变异结果;对二级变异结果进行修正,得到处理结果;其中,对二级变异结果进行修正的步骤包括:判断二级变异结果中是否存在邻近的突变位点,如存在,则判断邻近的突变位点的变异频率是否存在显著差异并且是否有支持序列,若不存在显著差异并且有支持序列,则将相邻的突变位点合并,从而得到处理结果。进一步地,利用目的片段的扩增引物识别一级测序序列,得到识别序列的步骤包括:步骤A,循环目的片段的所有扩增引物,从每条扩增引物的5’端开始,按照长度L截取特异性序列并记录每对扩增引物的特异性序列的数量、对应的特异性序列以及特异性序列后剩余的引物序列的长度;步骤B,变化长度L,重复步骤A,得到所有扩增引物的不同数量的特异性序列的集合,选择特异性序列数量最多的集合所对应的长度L以及对应的特异性序列集合进行后续分析;步骤C,循环处理一级测序序列中的每条序列,截取每条序列的前25~35bp的序列,从5`端开始,按照特异性序列数量最多的集合所对应的长度L去截取序列,得到测序截取序列集合;步骤D,查找特异性序列数量最多的集合中的特异性序列所对应的扩增引物在测序截取序列集合中出现次数最多的扩增引物及对应次数,并当对应次数的最大值大于设定的第二阈值时,即认为该条一级测序序列是由出现次数最多的扩增引物扩增得到,则将该条一级测序序列记为识别序列。进一步地,去除识别序列中对应的扩增引物,得到二级测序序列的步骤包括:按照出现次数最多的扩增引物的特异性序列在识别序列中最后出现的位置以及最后出现的位置之后剩余的扩增引物序列的长度,去除识别序列中的扩增引物,得到二级测序序列。进一步地,从已知突变数据中筛选出目的片段对应区域内的已知突变数据,得到已知突变的局部序列的步骤包括:筛选已知突变数据中目的片段对应区域,形成已知突变区域;记录已知突变区域中每个已知突变的起始位置和终止位置,并沿起始位置和终止位置分别向两端延伸,然后记录延伸后的起始位置和终止位置,且当延伸后的起始位置和终止位置位于目的片段对应区域内时,延伸后的起始位置和延伸后的终止位置对应的序列即为已知突变的局部序列;当延伸后的起始位置和/或终止位置超出目的片段对应区域,则将目的片段对应区域的边界作为已知突变的局部序列的起始位置和/或终止位置。进一步地,从初级变异结果中筛选同时也出存在于已知突变数据中的变异位点,形成初级变异结果的局部序列的步骤包括:从初级变异结果中筛选同时也出存在于已知突变数据中的变异位点,记录每个变异位点的起始位置和终止位置,并沿起始位置和终止位置分别向两端延伸,延伸至已知突变的局部序列对应的位置,即为初级变异结果的局部序列。进一步地,将初级变异结果的局部序列与已知突变的局部序列进行比对,得到二级变异结果的步骤包括:查找每个目的片段对应的已知突变的局部序列中是否存在初级变异结果;若存在一个初级变异结果,则根据变异结果的起始位置和终止位置,并沿起始位置和终止位置分别向两端延伸,形成一个样本突变局部序列;若存在多个初级变异结果,则判断多个初级变异结果之间的变异频率是否存在显著差异;若全部都存在显著差异,则根据每个初级变异结果的起始位置和终止位置,并沿起始位置和终止位置分别向两端延伸,形成各自的样本突变局部序列;若存在无显著差异的初级变异结果,则初步判定多个初级变异结果为连锁,并将多个初级变异结果合并形成同一样本突变局部序列,而多个初级变异结果中存在显著差异的剩余初级变异结果,则单独生成各自的样本突变局部序列;判断各样本突变局部序列与已知突变的局部序列是否相同,若相同,则将初级变异结果校准为已知突变结果;若不同,则不作校准;将已校准为已知突变结果的突变位点与剩余的未作校准的突变位点合并,得到二级变异结果。进一步地,对二级变异结果进行修正的步骤包括判断多个初级变异结果为连锁是否存在假阳性的步骤;其中,判断多个初级变异结果为连锁是否存在假阳性的步骤包括:提取同时覆盖多个变异结果的序列,并统计支持同时覆盖多个变异结果的二级测序序列的比例;若支持同时覆盖多个变异结果的二级测序序列的比例与支持多个变异结果中每个变异结果的序列的比例不存在显著差异,则确认多个初级变异结果为连锁出现,并以连锁突变的方式重新计算突变频率,当重新计算后的突变频率满足第三阈值时,得到修正突变结果;若支持同时覆盖多个变异结果的二级测序序列的比例与支持多个变异结果中每个变异结果的序列的比例存在显著差异,则确认多个本文档来自技高网...

【技术保护点】
1.一种高通量测序数据的处理方法,其特征在于,所述处理方法包括:获取二级测序序列,所述二级测序序列为所述高通量测序数据中能够被目的片段扩增引物识别,且去除对应的所述扩增引物后的测序序列;比对所述二级测序序列与参考基因组序列,获得初级变异结果;利用已知突变数据中的突变数据修正所述初级变异结果,得到处理结果。

【技术特征摘要】
1.一种高通量测序数据的处理方法,其特征在于,所述处理方法包括:获取二级测序序列,所述二级测序序列为所述高通量测序数据中能够被目的片段扩增引物识别,且去除对应的所述扩增引物后的测序序列;比对所述二级测序序列与参考基因组序列,获得初级变异结果;利用已知突变数据中的突变数据修正所述初级变异结果,得到处理结果。2.根据权利要求1所述的处理方法,其特征在于,获取所述二级测序序列的步骤包括:过滤下机的高通量测序数据中低质量的测序数据,获得一级测序序列,所述低质量的测序数据是指Q20低于80%或N碱基比例大于10%的测序序列;利用目的片段的所述扩增引物识别所述一级测序序列,得到识别序列;去除所述识别序列中对应的所述扩增引物,得到所述二级测序序列。3.根据权利要求1所述的处理方法,其特征在于,比对所述二级测序序列与参考基因组序列,得到初级变异结果的步骤包括:根据所述目的片段的所述扩增引物的位置信息,从所述参考基因组序列上截取对应的目的片段的参考比对序列;将所述二级测序序列与所述参考比对序列进行比对,得到所述初级变异结果。4.根据权利要求3所述的处理方法,其特征在于,在将所述二级测序序列与所述参考比对序列进行比对之后,以及得到所述初级变异结果之前,所述处理方法还包括:将所述二级测序序列与所述参考比对序列进行比对,得到比对序列;根据所述扩增引物的位置信息,判断所述比对序列中是否存在异常序列,所述异常序列指比对质量低于第一阈值的序列或者与所述参考比对序列的信息不一致的序列;若存在,则从所述比对序列中过滤掉所述异常序列,并统计剩余序列的每个位置与所述参考比对序列的异同,得到所述初级变异结果。5.根据权利要求1至4中任一项所述的处理方法,其特征在于,利用已知突变数据中的突变数据修正所述初级变异结果,得到处理结果的步骤包括:从已知突变数据中筛选出所述目的片段对应区域内的已知突变数据,得到已知突变的局部序列;从所述初级变异结果中筛选同时也出存在于所述已知突变数据中的变异位点,形成初级变异结果的局部序列;将所述初级变异结果的局部序列与所述已知突变的局部序列进行比对,得到所述处理结果。6.根据权利要求5所述的处理方法,其特征在于,将所述初级变异结果的局部序列与所述已知突变的局部序列进行比对,得到所述处理结果的步骤包括:将所述初级变异结果的局部序列与所述已知突变的局部序列进行比对,得到二级变异结果;对所述二级变异结果进行修正,得到所述处理结果;其中,对所述二级变异结果进行修正的步骤包括:判断所述二级变异结果中是否存在邻近的突变位点,如存在,则判断所述邻近的突变位点的变异频率是否存在显著差异并且是否有支持序列,若不存在显著差异并且有支持序列,则将相邻的突变位点合并,从而得到所述处理结果。7.根据权利要求2所述的处理方法,其特征在于,所述利用目的片段的所述扩增引物识别所述一级测序序列,得到识别序列的步骤包括:步骤A,循环所述目的片段的所有扩增引物,从每条所述扩增引物的5’端开始,按照长度L截取特异性序列并记录每对所述扩增引物的特异性序列的数量、对应的特异性序列以及所述特异性序列后剩余的引物序列的长度;步骤B,变化所述长度L,重复所述步骤A,得到所述所有扩增引物的不同数量的特异性序列的集合,选择特异性序列数量最多的集合所对应的长度L以及对应的特异性序列集合进行后续分析;步骤C,循环处理所述一级测序序列中的每条序列,截取每条序列的前25~35bp的序列,从5`端开始,按照特异性序列数量最多的集合所对应的长度L去截取序列,得到测序截取序列集合;步骤D,查找所述特异性序列数量最多的集合中的特异性序列所对应的扩增引物在所述测序截取序列集合中出现次数最多的扩增引物及所述出现次数最多的扩增引物的次数,并当所述出现次数最多的扩增引物的次数的最大值大于设定的第二阈值时,即认为该条所述一级测序序列是由出现次数最多的所述扩增引物扩增得到,则将该条所述一级测序序列记为识别序列。8.根据权利要求7所述的处理方法,其特征在于,去除所述识别序列中对应的所述扩增引物,得到所述二级测序序列的步骤包括:按照所述出现次数最多的扩增引物的特异性序列在所述识别序列中最后出现的位置以及所述最后出现的位置之后剩余的扩增引物序列的长度,去除所述识别序列中的所述扩增引物,得到所述二级测序序列。9.根据权利要求5所述的处理方法,其特征在于,从已知突变数据中筛选出所述目的片段对应区域内的已知突变数据,得到已知突变的局部序列的步骤包括:筛选已知突变数据中所述目的片段对应区域,形成已知突变区域;记录所述已知突变区域中每个已知突变的起始位置和终止位置,并沿所述起始位置和终止位置分别向两端延伸,然后记录延伸后的起始位置和终止位置,且当所述延伸后的起始位置和终止位置位于所述目的片段对应区域内时,所述延伸后的起始位置和延伸后的终止位置对应的序列即为所述已知突变的局部序列;当所述延伸后的起始位置和/或终止位置超出所述目的片段对应区域,则将所述目的片段对应区域的边界作为所述已知突变的局部序列的起始位置和/或终止位置。10.根据权利要求9所述的处理方法,其特征在于,从所述初级变异结果中筛选同时也出存在于所述已知突变数据中的变异位点,形成初级变异结果的局部序列的步骤包括:从所述初级变异结果中筛选同时也出存在于所述已知突变数据中的变异位点,记录每个变异位点的起始位置和终止位置,并沿所述起始位置和终止位置分别向两端延伸,延伸至所述已知突变的局部序列对应的位置,即为所述初级变异结果的局部序列。11.根据权利要求6所述的处理方法,其特征在于,将所述初级变异结果的局部序列与所述已知突变的局部序列进行比对,得到二级变异结果的步骤包括:查找每个目的片段对应的所述已知突变的局部序列中是否存在所述初级变异结果;若存在一个所述初级变异结果,则根据所述变异结果的起始位置和终止位置,并沿所述起始位置和终止位置分别向两端延伸,形成一个样本突变局部序列;若存在多个所述初级变异结果,则判断多个所述初级变异结果之间的变异频率是否存在显著差异;若全部都存在显著差异,则根据每个所述初级变异结果的起始位置和终止位置,并沿所述起始位置和终止位置分别向两端延伸,形成各自的样本突变局部序列;若存在无显著差异的所述初级变异结果,则初步判定多个所述初级变异结果为连锁,并将多个所述初级变异结果合并形成同一样本突变局部序列,而多个所述初级变异结果中存在显著差异的剩余初级变异结果,则单独生成各自的样本突变局部序列;判断各样本突变局部序列与已知突变的局部序列是否相同,若相同,则将所述初级变异结果校准为已知突变结果;若不同,则不作校准;将已校准为已知突变结果的突变位点与剩余的未作校准的突变位点合并,得到所述二级变异结果。12.根据权利要求11所述的处理方法,其特征在于,对所述二级变异结果进行修正的步骤包括判断多个所述初级变异结果为连锁是否存在假阳性的步骤;其中,判断多个所述初级变异结果为连锁是否存在假阳性的步骤包括:提取同时覆盖多个所述变异结果的序列,并统计支持同时覆盖多个所述变异结果的二级测序序列的比例;若支持同时覆盖多个所述变异结果的二级测序序列的比例与支持多个所述变异结果中每个变异结果的序列的比例不存在显著差异,则确认多个所述初级变异结果为连锁出现,并以连锁突变的方式重新计算突变频率,当所述重新计算后的突变频率满足第三阈值时,得到修正突变结果;若支持同时覆盖多个所述变异结果的二级测序序列的比例与支持多个所述变异结果中每个变异结果的序列的比例存在显著差异,则确认多个所述初级变异结果为连锁存在假阳性,并将合并的多个所述变异结果进行拆分后重新计算突变频率,当所述重新计算后的突变频率满足第三阈值时,得到修正突变结果;将所述修正突变结果与未修正的突变结果合并,得到所述处理结果。13.一种高通量测序数据的处理装置,其特征在于,所述处理装置包括:二级测序序列获取单元,用于获取二级测序序列,所述二级测序序列为所述高通量测序数据中能够被目的片段扩增引物识别,且去除了对应的所述扩增引物后的测序序列;初级变异结果获取单元,用于比对所述二级测序序列与参考基因组序列,获得初级变异结果;以及修正单元,用于利用已知突变数据中...

【专利技术属性】
技术研发人员:李晖陈钊莫敏俐丁凤王淑娟
申请(专利权)人:北京雅康博生物科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1