循环肿瘤DNA重复序列的处理方法及装置制造方法及图纸

技术编号:18350775 阅读:88 留言:0更新日期:2018-07-02 00:13
本发明专利技术公开了一种循环肿瘤DNA重复序列的处理方法及装置。其中,该方法包括:获取待检测循环肿瘤DNA的测序数据和参考基因组序列,其中,测序数据为对待检测循环肿瘤DNA进行高通量测序得到的数据,测序数据包括:多对双端序列;将测序数据和参考基因组序列进行比对,得到第一比对结果,其中,第一比对结果至少包括:多对双端序列的基因组位置、碱基序列和对应的碱基质量值序列;基于第一比对结果,确定每对双端序列的类型,其中,类型包括:独立序列和重复序列。本发明专利技术解决了现有技术中测序数据的处理方法对样本测序进行重复序列删除或标记,准确度低的技术问题。

【技术实现步骤摘要】
循环肿瘤DNA重复序列的处理方法及装置
本专利技术涉及遗传工程领域,具体而言,涉及一种循环肿瘤DNA重复序列的处理方法及装置。
技术介绍
肿瘤细胞在进行分裂增殖过程当中,会凋亡、死亡、坏死,也会主动向体液中释放携带有肿瘤突变的DNA碎片,也即循环肿瘤DNA(circulatingtumorDNA,简称为ctDNA),多存在于血液、滑膜液和脑脊液等体液中,尤其是血浆游离DNA(cell-freeDNA,cfDNA)中。通过对ctDNA的测序,检测肿瘤细胞DNA分子上发生碱基序列改变(突变)的基因组区域,能够有效反应病人对治疗的响应;在检测到药物响应之后,肿瘤有可能对药物治疗产生耐药,ctDNA检测也可以追踪耐药突变的产生,定性定量;检测手术后是否存在残余组织,判断预后效果以及早期肿瘤的筛查。不同于常规的基因组DNA,ctDNA片段较短,通常只有100~400bp,而且在血液中含量较少,所以实际中能提取到的ctDNA量含量很低。由于ctDNA片段较短且含量较低的特点,因此在提取量较少时,需要在建库阶段进行多轮聚合酶链式反应(PolymeraseChainReaction,简称为PCR),扩大原始提取DNA的含量,以产生足够的DNA分子数目做高通量测序(High-throughputsequencing,简称为NGS测序)和后续生物信息学分析。由于PCR扩增导致对一个分子进行多次镜像复制,产生重复序列(Duplicatedreads),这些无效的重复数据对于检测变异极容易引入人工误差。对于最理想的NGS数据分析流程中,都需要尽可能把所有通过PCR获得的测序数据全部去除,还原到没有PCR的状态。现有技术中,提供了两种重复序列的去重方法,samtoolsrmdup和Picard’sMarkDuplicates。其中,samtoolsrmdup的工作原理为:NGS测序得到的序列(read)通过与人类参考基因组比对(mapping),得到这条read的比对位置,如果不同的reads比对到相同的基因组位置,则认为这部分的reads是通过PCR产生的多个重复序列,只保留mapping质量最高的read,删除其余的重复序列。对于PEreads,如果两端的read比多到基因组的不同染色体上或者两者之前的距离过长(即不是ProperPaired),则不作去重考虑。Picard’sMarkDuplicates的基本思路与samtoolsrmdup相同,通过比较reads中5'端的mapping位置,对于具有相同5'位置的序列,选取测序质量最高的reads作为去重后保留的唯一reads,且对于PEreads不是ProperPaired的情况也会做去重处理。但在基因组相同位置上,往往有可能会存在多个原始分子,这些原始分子并不是通常意义上的PCR重复,有可能存在有意义的突变(例如ctDNA中就是肿瘤相关变异),但在上述的去重方法中,对于这种情况的判断,samtoolsrmdup和Picard’sMarkDuplicates会错误的认为是同一个原始分子,仅保留1对reads,导致过度去重,浪费了部分有意义的数据量。无论是Samtoolsrmdup还是Picard’sMarkDuplicates都只考虑了read的某种质量值,而并没有考虑read上的具体序列上的差异,导致过去重或错误选取保留的uniquereads的发生。针对现有技术中测序数据的处理方法对样本测序进行重复序列删除或标记,准确度低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种循环肿瘤DNA重复序列的处理方法及装置,以至少解决现有技术中测序数据的处理方法对样本测序进行重复序列删除或标记,准确度低的技术问题。根据本专利技术实施例的一个方面,提供了一种循环肿瘤DNA重复序列的处理方法,包括:获取待检测循环肿瘤DNA的测序数据和参考基因组序列,其中,测序数据为对待检测循环肿瘤DNA进行高通量测序得到的数据,测序数据包括:多对双端序列;将测序数据和参考基因组序列进行比对,得到第一比对结果,其中,第一比对结果至少包括:多对双端序列的基因组位置、碱基序列和对应的碱基质量值序列;基于第一比对结果,确定每对双端序列的类型,其中,类型包括:独立序列和重复序列。进一步地,基于第一比对结果,确定每对双端序列的类型包括:将多对双端序列划分为至少一个序列集合,其中,每个序列集合包括:至少一对双端序列,同一个序列集合中的双端序列的基因组位置相同且碱基序列相同;计算每个序列集合中每对双端序列包含的所有碱基的碱基质量值之和,得到每个序列集合中每对双端序列的碱基质量和;获取每个序列集合中最大碱基质量和对应的第一双端序列;将每个序列集合中第一双端序列作为独立序列,并将每个序列集合中除第一双端序列之外的其他第二双端序列作为重复序列。进一步地,将多对双端序列划分为至少一个序列集合包括:将每对双端序列的与多对双端序列中除每对双端序列之外的任意一对双端序列进行比较;如果每对双端序列的基因组位置和任意一对双端序列的基因组位置相同,并且每对双端序列中每个碱基位置上的碱基类型与任意一对双端序列中每个碱基位置上的碱基类型相同,则将每对双端序列和任意一对双端序列划分为同一个序列集合。进一步地,在基于第一比对结果,确定每对双端序列的类型之后,上述方法还包括:在第一比对结果中,对重复序列进行标记。进一步地,第一比对结果还包括:标记位,其中,在第一比对结果中,对重复序列进行标记包括:获取重复序列的标记位的当前值;计算当前值与预设值之和,得到和值;将当前值修改为和值。进一步地,在第一比对结果中,对重复序列进行标记之后,上述方法还包括:按照每对双端序列的基因组位置,显示第一比对结果。进一步地,在第一比对结果中,对重复序列进行标记之后,上述方法还包括:根据第一比对结果,显示每个基因组位置对应的双端序列的比对信息和碱基质量值;对比对质量满足预设条件的双端序列进行过滤。进一步地,在基于第一比对结果,确定每对双端序列的类型之前,上述方法还包括:按照每对双端序列的基因组位置,对第一比对结果进行排序,得到第二比对结果,并为第二比对结果建立索引;对第二比对结果进行过滤,得到第三比对结果;基于第三比对结果,确定每对双端序列的类型。进一步地,将测序数据和参考基因组序列进行比对,得到第一比对结果包括:获取多对双端序列中每条序列和参考基因组序列中的每段序列的匹配度;获取最高匹配度对应的至少一段序列,得到每条序列的匹配序列;根据每条序列的匹配序列,确定每条序列的基因组位置。根据本专利技术实施例的另一方面,还提供了一种循环肿瘤DNA重复序列的处理装置,包括:获取模块,用于获取待检测循环肿瘤DNA的测序数据和参考基因组序列,其中,测序数据为对待检测循环肿瘤DNA进行高通量测序得到的数据,测序数据包括:多对双端序列;比对模块,用于将测序数据和参考基因组序列进行比对,得到第一比对结果,其中,第一比对结果至少包括:多对双端序列的基因组位置、碱基序列和对应的碱基质量值序列;确定模块,用于基于第一比对结果,确定每对双端序列的类型,其中,类型包括:独立序列和重复序列。根据本专利技术实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在本文档来自技高网
...
循环肿瘤DNA重复序列的处理方法及装置

【技术保护点】
1.一种循环肿瘤DNA重复序列的处理方法,其特征在于,包括:获取待检测循环肿瘤DNA的测序数据和参考基因组序列,其中,所述测序数据为对待检测循环肿瘤DNA进行高通量测序得到的数据,所述测序数据包括:多对双端序列;将所述测序数据和所述参考基因组序列进行比对,得到第一比对结果,其中,所述第一比对结果至少包括:所述多对双端序列的基因组位置、碱基序列和对应的碱基质量值序列;基于所述第一比对结果,确定每对双端序列的类型,其中,所述类型包括:独立序列和重复序列。

【技术特征摘要】
1.一种循环肿瘤DNA重复序列的处理方法,其特征在于,包括:获取待检测循环肿瘤DNA的测序数据和参考基因组序列,其中,所述测序数据为对待检测循环肿瘤DNA进行高通量测序得到的数据,所述测序数据包括:多对双端序列;将所述测序数据和所述参考基因组序列进行比对,得到第一比对结果,其中,所述第一比对结果至少包括:所述多对双端序列的基因组位置、碱基序列和对应的碱基质量值序列;基于所述第一比对结果,确定每对双端序列的类型,其中,所述类型包括:独立序列和重复序列。2.根据权利要求1所述的方法,其特征在于,基于所述第一比对结果,确定每对双端序列的类型包括:将所述多对双端序列划分为至少一个序列集合,其中,每个序列集合包括:至少一对双端序列,同一个序列集合中的双端序列的基因组位置相同且碱基序列相同;计算每个序列集合中每对双端序列包含的所有碱基的碱基质量值之和,得到所述每个序列集合中所述每对双端序列的碱基质量和;获取所述每个序列集合中最大碱基质量和对应的第一双端序列;将所述每个序列集合中所述第一双端序列作为所述独立序列,并将所述每个序列集合中除所述第一双端序列之外的其他第二双端序列作为所述重复序列。3.根据权利要求2所述的方法,其特征在于,将所述多对双端序列划分为至少一个序列集合包括:将每对双端序列的与所述多对双端序列中除所述每对双端序列之外的任意一对双端序列进行比较;如果所述每对双端序列的基因组位置和所述任意一对双端序列的基因组位置相同,且所述每对双端序列中每个碱基位置上的碱基类型与所述任意一对双端序列中每个碱基位置上的碱基类型相同,则将所述每对双端序列和所述任意一对双端序列划分为同一个序列集合。4.根据权利要求1所述的方法,其特征在于,在基于所述第一比对结果,确定每对双端序列的类型之后,所述方法还包括:在所述第一比对结果中,对所述重复序列进行标记。5.根据权利要求4所述的方法,其特征在于,所述第一比对结果还包括:标记位,其中,在所述第一比对结果中,对所述重复序列进行标记包括:获取所述重复序列的标记位的当前值;计算所述当前值与预设值之和,得到和值;将所述当前值修改为所述和值。6.根据权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:郭昊于佳宁韩天澄宋雪林小静
申请(专利权)人:臻和北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1