一种基因组拷贝数变异的检测方法及包含该方法的装置制造方法及图纸

技术编号:19023696 阅读:59 留言:0更新日期:2018-09-26 19:08
本发明专利技术提供了一种基因组拷贝数变异的检测方法及包含该方法的装置,所述方法包括输入原始数据、质控清理、将序列比对到参考基因组、利用大小不同的窗口计算唯一比对序列数、GC矫正、参考矫正、屏蔽不可检测区域、CBS分段、核型报告整合与生成报告的步骤,通过实验摸索优化,建立了一整套完整的检测方法和装置,通过特定顺序步骤的连用,创造性地采用参考校正的步骤,并选用大小不同的窗口进行比对整合,各步骤相互配合,最终提高敏感性和特异性,使检测准确度和结果形式能够符合临床需求,自动化程度高、易于扩展,检测的准确度高,能够降低数据分析的成本,具有极高的应用价值。

【技术实现步骤摘要】
一种基因组拷贝数变异的检测方法及包含该方法的装置
本专利技术涉及生物信息学
,尤其涉及一种基因组拷贝数变异的检测方法及包含该方法的装置。
技术介绍
拷贝数变异(Copynumbervariation,CNV)主要指基因组的DNA片段大小从1kb到几个Mb范围内的缺失、插入、重复等,包括数目异常和结构异常。拷贝数嵌合指的是染色体拷贝数变异数量介于整数之间,比如2.5倍的拷贝数变异为50%的三倍体嵌合。基因组拷贝数变异检测的应用领域除了科学研究外,在临床应用领域,拷贝数变异检测可用于单细胞拷贝数变异检测、流产物组织拷贝数变异检测、拷贝数变异的遗传病和肿瘤的检测等;其中单细胞拷贝数变异指的是分析单个细胞的拷贝数变异,比如单精子、单个受精卵细胞、单个卵细胞等。单细胞拷贝数变异检测的主要应用领域之一是胚胎植入前遗传学筛查(PreimplantationGeneticScreening,PGS)和胚胎植入前遗传学诊断(PreimplantationGeneticdiagnostics,PGD),主要对早期胚胎的单个细胞进行染色体拷贝数异常的检测,通过一次性检测胚胎23对染色体的结构和数目,分析胚胎是否有遗传物质异常的一种早期产前筛查/诊断方法,从而挑选正常的胚胎植入子宫,以期获得正常的妊娠,提高患者的临床妊娠率,降低胎儿患病风险。流产物组织拷贝数变异检测的目的是通过检测流产胎儿或胎盘样本,检测是不是胎儿基因组拷贝数变异导致的导致流产的。拷贝数变异的遗传病和肿瘤的检测主要是对病人进行基因组拷贝数变异检测用于发现导致遗传病/肿瘤的原因,并根据这些信息选择合适的药物进行精准治疗,可见,基因组拷贝数变异检测在整个生物医学领域有着重要的应用价值。目前全基因组拷贝数变异检测的主要方法有:基因芯片,如比较基因组杂交(comparativeGenomicHybridization,arrayCGH)和二代测序(NextGenerationSequencing,NGS),其它方法只是针对单个基因或目标片段分析,无法覆盖整个基因组;基因芯片的方法通量低、分辨率低,不能检测到精确的断点;二代测序的方法具有更高通量、更精细的分辨率、能够更精确地检测到断点以及更低的价格。然而,二代测序技术也有一定的缺陷;虽然二代测序技术可以产生大量的数据,但如何处理和分析这些数据成为制约二代测序技术用于拷贝数变异检测临床应用的主要瓶颈;目前二代测序技术的数据分析方面还存在的问题主要是检测结果的假阳性高、准确度低。CN104133914A提供了一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法,通过对人类基因组进行处理,并结合高通量测序得到的基因序列进行比对,对基因序列进行校正后,在染色体间做T-test,从而判断混合样本中染色体是否存在整倍体变异,很好地解决了高通量测序引入的GC偏差的技术问题,从而使得高通量测序在混合样本中染色体拷贝数变异的检测上的应用成为可能。CN106845154A涉及一种FFPE样本拷贝数变异检测装置包括测序数据获取模块、序列比对模块、前期数据处理模块、归一化模块、背景库筛选模块、数据波动消除模块、GC校正模块以及输出模块;CN105574361A涉及一种检测基因组拷贝数变异的方法,具体包括以下步骤:对样本基因组进行测序,以获得基因组序列;将序列比对到参考基因组,得到序列在基因组上的位置;将参考基因组分成一定长度的窗口,统计落在每个窗口的序列及碱基;根据每个窗口的序列及碱基GC含量,对每个窗口做校正;确定拷贝数正常的阈值,扫描每个窗口,确定窗口拷贝数是否变异;精确扫描异常的窗口,以确定精确的断点,来确定拷贝数变异的具体位置;但上述现在技术的检测结果假阳性高、准确度低,检测流程繁琐,步骤冗余,有待进一步提高和优化。因此,需要高敏感性和特异性的生物信息学方法,以便于将基于二代测序的拷贝数变异检测技术更广泛地应用于临床。
技术实现思路
针对现有技术的不足及实际的需求,本专利技术提供一种基因组拷贝数变异的检测方法及包含该方法的装置,经过实验摸索优化,建立了一整套完整的检测方法和装置,通过特定顺序步骤的连用,创造性地采用参考校正的步骤,并选用大小不同的窗口进行比对整合,各步骤相互配合,最终提高敏感性和特异性,使检测准确度和结果形式能够符合临床需求,自动化程度高、易于扩展,检测的准确度高,能够降低数据分析的成本,具有极高的应用价值。为达上述目的,本专利技术采用以下技术方案:第一方面,本专利技术提供一种基因组拷贝数变异的检测方法,所述检测方法包括如下步骤:(1)获取样本的原始数据并进行质控和清理;(2)将步骤(1)得到的数据与参考基因组进行比对,然后排序并去重复;(3)将参考基因组分成至少两个大小不同的窗口,计算落入窗口的唯一比对的序列数;(4)统计落入步骤(3)所述窗口的GC含量,并进行GC校正;(5)将步骤(4)得到的GC矫正后的窗口计数结果的中位数的倒数作为权重进行参考校正;(6)将步骤(5)得到的数据进行CBS算法进行分段,找到基因组拷贝数相同的区域和不同的区域;(7)将步骤(6)得到的CBS分段结果针对单个窗口进行全基因组核型分析,得到初步核型结果;(8)将步骤(7)得到的不同大小窗口的核型结果进行整合,得到最终核型结果;(9)对步骤(1)-(8)得到的数据进行加工处理整合,生成报告。专利技术人在长期生产研究中,总结现有技术的优缺点,通过大量试验进行摸索优化,建立了一整套完整的检测方法和装置,通过特定顺序步骤的连用,创造性地采用参考校正的步骤,并选用大小不同的窗口进行比对整合,各步骤相互配合,最终提高敏感性和特异性,使检测准确度和结果形式能够符合临床需求,自动化程度高、易于扩展,检测的准确度高,能够降低数据分析的成本,具有极高的应用价值。本专利技术中,专利技术人经实验论证后发现,整个检测方法的顺序要按照数据清洗与转换的合理逻辑为准则,不能颠倒,从而才能够保证检测方法的流程完整性,即数据处理的过程与过程的顺序:数据处理的过程和过程的顺序为对原始数据质控,去除掉低质量的数据、将数据比对到基因组上获得唯一比对序列、GC矫正、参考矫正。不仅如此,专利技术人通过在检测流程中引入参考矫正的步骤,可以将测序仪、试剂盒等技术噪音屏蔽掉,因此可以减少这些方面的假阳性和假阴性,而具体的参考矫正采用正常的样本的每个GC矫正后的拷贝数值的中位数的倒数作为该窗口参考矫正的权重来进行。另外,专利技术人吸收归纳现有技术的优点,采用多窗口扫描整合的方法,同时利用两个或多个不同大小的窗口对基因组扫描,计算拷贝数变异,然后对这些不同大小窗口的结果进行整合,由于每个样本的数据量是一定的,窗口越小则落入每个窗口的数据越少,数据方差越大越不稳定,因此一些大的拷贝数会在小窗口的时候检测不出来,因此需要多种窗口并行运行,最后对这些结果进行整合,以减少假阴性的发生。与此同时,专利技术人提供的方法,能够根据CBS分段的结果自动化报告出符合临床需求的核型结果,能够推算性别、染色体数目和结构异常以及染色体嵌合及嵌合比例。优选地,步骤(1)所述样品包括单细胞、少量混合的细胞、痕量DNA或组织的基因组DNA中的任意一种或至少两种的组合。所述样本经过DNA提取、全基因组扩增、建库、测序等实验步骤获得测序数本文档来自技高网
...

【技术保护点】
1.一种基因组拷贝数变异的检测方法,其特征在于,所述检测方法包括如下步骤:(1)获取样本的原始数据并进行质控和清理;(2)将步骤(1)得到的数据与参考基因组进行比对,排序并去重复;(3)将参考基因组分成至少两个大小不同的窗口,计算落入窗口的唯一比对的序列数;(4)统计落入步骤(3)所述窗口的GC含量,并进行GC校正;(5)将步骤(4)得到的GC矫正后的窗口计数结果的中位数的倒数作为权重进行参考校正;(6)将步骤(5)得到的数据进行CBS算法进行分段,找到基因组拷贝数相同的区域和不同的区域;(7)将步骤(6)得到的CBS分段结果针对单个窗口进行全基因组核型分析,得到初步核型结果;(8)将步骤(7)得到的不同大小窗口的核型结果进行整合,得到最终核型结果;(9)对步骤(1)‑(8)得到的数据进行加工处理整合,生成报告。

【技术特征摘要】
1.一种基因组拷贝数变异的检测方法,其特征在于,所述检测方法包括如下步骤:(1)获取样本的原始数据并进行质控和清理;(2)将步骤(1)得到的数据与参考基因组进行比对,排序并去重复;(3)将参考基因组分成至少两个大小不同的窗口,计算落入窗口的唯一比对的序列数;(4)统计落入步骤(3)所述窗口的GC含量,并进行GC校正;(5)将步骤(4)得到的GC矫正后的窗口计数结果的中位数的倒数作为权重进行参考校正;(6)将步骤(5)得到的数据进行CBS算法进行分段,找到基因组拷贝数相同的区域和不同的区域;(7)将步骤(6)得到的CBS分段结果针对单个窗口进行全基因组核型分析,得到初步核型结果;(8)将步骤(7)得到的不同大小窗口的核型结果进行整合,得到最终核型结果;(9)对步骤(1)-(8)得到的数据进行加工处理整合,生成报告。2.根据权利要求1所述的检测方法,其特征在于,步骤(1)所述样品包括单细胞DNA、少量混合的细胞DNA、痕量DNA或组织的基因组DNA中的任意一种或至少两种的组合;优选地,步骤(1)所述获取数据的测序仪包括Illumina平台、IonTorrent平台或DA8600平台的测序仪;优选地,步骤(1)所述数据的格式包括FASTQ和/或BAM格式;优选地,步骤(1)所述质控和清理的软件包括Trimmomatic、cutadapt、FASTQC或fastp中的任意一种或至少两种的组合。3.根据权利要求1或2所述的检测方法,其特征在于,步骤(2)所述参考基因组包括UCSChg19、UCSChg38、GRCh37或GRCh38中的任意一种或至少两种的组合;优选地,步骤(2)所述比对软件包括TMAP、BWA、Bowtie/Bowtie2、SOAP或SOAP2中的任意一种或至少两种的组合;优选地,步骤(2)所述排序和去重复所用软件包括Samtools、Picard或GATK中的任意一种或至少两种的组合;优选地,步骤(2)所述排序和去重复后得到的数据格式为BAM。4.根据权利要求1-3中任一项所述的检测方法,其特征在于,步骤(3)所述窗口大小包括1000K、500K、100K、50K、10K或1K中的至少两种的组合。5.根据权利要求1-4中任一项所述的检测方法,其特征在于,步骤(4)所述GC校正的方法包括局部加权回归散点平滑法或GC梯度变化的倒数权重法。6.根据权利要求1-5中任一项所述的检测方法,其特征在于,步骤(5)所述参考校正的值为该窗口GC校正后的值乘以参考数据每个窗口的权重;优选地,步骤(5)所述参考校正的步骤还包括屏蔽掉异常不可检测区域的步骤,所述异常不可检测区域的权重定义为0;优选地,所述异常不可检测区域包括窗口GC含量为0、参考计数的中位数为0或参考计数的变异系数大于0.2的数据窗口。7.根据权利要求1-6中任一项所述的检测方法,其特征在于,步骤(6)所述CBS分段采用的R语言软件包包括DNAcopy、seqCBS或PSCBS中的任意一种或至少两种的组合;优选地,步骤(6)所述CBS分...

【专利技术属性】
技术研发人员:李鹏薄世平陆思嘉任军
申请(专利权)人:上海亿康医学检验所有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1