一种拷贝数变异的检测方法及其应用技术

技术编号:30910805 阅读:19 留言:0更新日期:2021-11-22 23:57
本申请涉及一种拷贝数变异的检测方法及其应用,具体涉及一种拷贝数状态分析方法,包含将参考样本分为两个或以上参考样本组,从参考样本组中确定与待测样本相似度高的所述参考样本组作为与待测样本最接近的参考样本组,以及基于所述与待测样本最接近的参考样本组的测序数据确定所述待测样本的目标基因的拷贝数状态。贝数状态。

【技术实现步骤摘要】
一种拷贝数变异的检测方法及其应用


[0001]本申请涉及生物信息领域,具体的涉及一种拷贝数变异的检测方法及其应用。

技术介绍

[0002]拷贝数变异(CNV)是人类基因组中常见的变异类型之一。拷贝数变异包括基因拷贝数的扩增和缺失两种变异类型。对于基因拷贝数变异的检测可以用于监测受试者的基因组状态的,也可以用于发现特定疾病与某些基因组变异的关联性关系。例如,基因发生拷贝数变异可能导致多种常见遗传病,如BRCA1/2基因缺失可能导致遗传性乳腺癌的风险;基因发生拷贝数变异可能影响肿瘤的发生和发展,如HER2基因扩增不仅与肿瘤的发生发展相关,还是一个重要的临床治疗监测及预后指标,并且是肿瘤靶向治疗的一个重要靶点。因此,拷贝数变异的检测可以在受试者的基因组状态监测、全基因组关联研究、遗传病的预防以及肿瘤的精准治疗起着至关重要的作用。例如,携带某些特定的拷贝数变异的受试者与普通人群相比,可以具有更高的患有疾病(例如肿瘤)的终生风险。因此,拷贝数变异检测方法可以用于筛选出具有较高风险的受试者,该受试者可以接受疾病的个体化监测,从而可以达到早诊早治的目的。
[0003]传统的拷贝数变异检测方法如ddPCR(微滴式数字PCR)、MLPA(多重连接探针扩增技术)、FISH(荧光原位杂交技术)等,一次只能检测一个或少数几个基因的拷贝数状态,或者只能检测特定基因的拷贝数状态,不能对基因组进行全局分析,具有通量低、成本高的特点。目前,基于高通量技术检测拷贝数变异的方法有很多,但是不同的检测方法结果存在着很大的差异,检测的敏感性和特异性具有一定的局限。一方面,高通量测序技术在建库及测序过程中存在着一定的批次效应和技术误差,另一方面,由于肿瘤样本的复杂性,导致拷贝数检测结果的稳定性存在很大的挑战,使得基于高通量测序技术检测拷贝数变异检测在精准医疗领域有很大的难度。本领域急需一种可以降低批次效应、误差和/或提高拷贝数检测结果稳定性的分析方法。

技术实现思路

[0004]本申请的目的就是针对上述现有技术不足,提供一种针对基因拷贝数异常检测的方法。该方法至少可以降低批次效应、误差和/或提高拷贝数检测结果稳定性,对检测拷贝数异常相关的驱动事件以及解读肿瘤基因组演化信息有着重要的意义。本申请提供了一种拷贝数变异的检测方法及其应用。
[0005]一方面,本申请提供了一种拷贝数状态分析方法,包含以下步骤:
[0006](S1)获取待测样本的测序数据和/或多个参考样本的测序数据;
[0007](S2)将所述参考样本分为两个或以上参考样本组;
[0008](S3)确定与所述待测样本最接近的参考样本组;
[0009](S4)基于所述与待测样本最接近的参考样本组的测序数据,确定所述待测样本的目标基因的拷贝数状态。
[0010]另一方面,本申请提供了一种拷贝数状态分析装置,包含以下模块:(M1)接收模块,用于获取待测样本的测序数据和/或多个参考样本的测序数据;(M2)处理模块,用于将所述参考样本分为两个或以上参考样本组;(M3)计算模块,用于确定与所述待测样本最接近的参考样本组;(M4)判断模块,用于基于所述与待测样本最接近的参考样本组的测序数据,确定所述待测样本的目标基因的拷贝数状态。
[0011]另一方面,本申请提供了一种数据库建立方法,包含:获取多个参考样本的测序数据,以及将所述参考样本分为两个或以上参考样本组。在一种实施方式中,数据库建立方法包含本申请所述拷贝数状态分析方法的步骤(S1)和步骤(S2)。
[0012]另一方面,本申请提供了一种数据库建立装置,包含以下模块:接收模块,用于获取待测样本的测序数据和/或多个参考样本的测序数据;处理模块,用于将所述参考样本分为两个或以上参考样本组。
[0013]另一方面,本申请提供了一种拷贝数状态分析方法,包含:从两个或以上参考样本组确定与待测样本最接近的参考样本组,以及基于所述与待测样本最接近的参考样本组的测序数据,确定所述待测样本的目标基因的拷贝数状态。在一种实施方式中,拷贝数状态分析方法包含本申请所述拷贝数状态分析方法的步骤(S3)和步骤(S4)。
[0014]另一方面,本申请提供了一种拷贝数状态分析装置,包含以下模块:计算模块,用于从两个或以上参考样本组确定与所述待测样本最接近的参考样本组;判断模块,用于基于所述与待测样本最接近的参考样本组的测序数据,确定所述待测样本的目标基因的拷贝数状态。
[0015]另一方面,本申请提供了一种数据库,其根据本申请所述的方法建立。
[0016]另一方面,本申请提供了一种储存介质,其记载可以运行本申请的方法的程序。
[0017]另一方面,本申请提供了一种设备,其包含本申请的储存介质。在一种实施方式中,设备还包含耦接至所述储存介质的处理器,所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请的方法。
[0018]另一方面,本申请提供了本申请的方法,在疾病诊断、预防和/或治疗中的应用。
[0019]另一方面,本申请提供了本申请的方法,在目标基因的拷贝数状态监测中的应用。
[0020]另一方面,本申请提供了本申请的方法,在全基因组关联研究中的应用。
[0021]本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的,本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及专利技术的精神和范围。相应地,本申请的附图和说明书中的描述仅仅是示例性的,而非为限制性的。
附图说明
[0022]本申请所涉及的专利技术的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及专利技术的特点和优势。对附图简要说明如下:
[0023]图1A

1F显示的是,本申请对于模拟样本的检测结果部分数据的拷贝数分布图示例。
[0024]图2A

2C显示的是,本申请对于标准样本的检测结果部分数据的拷贝数分布图示例。
[0025]图3A

3C显示的是,本申请对于真实样本的检测结果部分数据的拷贝数分布图示例。
[0026]图4A

4F显示的是,本申请对于标准样本1使用不同的基线检测结果的拷贝数分布图示例。
具体实施方式
[0027]以下由特定的具体实施例说明本申请专利技术的实施方式,熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请专利技术的其他优点及效果。
[0028]术语定义
[0029]在本申请中,术语“二代基因测序”、高通量测序”或“下一代测序”通常是指第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于已有的Illumina等测序平台。随着测序技术的不断发展,本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置用于本方法。例如,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拷贝数状态分析方法,包含以下步骤:(S1)获取待测样本的测序数据和/或多个参考样本的测序数据;(S2)将所述参考样本分为两个或以上参考样本组;(S3)确定与所述待测样本最接近的参考样本组;(S4)基于所述与待测样本最接近的参考样本组的测序数据,确定所述待测样本的目标基因的拷贝数状态。2.如权利要求1所述的方法,所述步骤(S1)包含步骤(S1

1):通过基因测序获取所述待测样本和/或所述参考样本的所述测序数据;优选地,该基因测序包含二代基因测序(NGS);优选地,所述样本选自以下组:组织样本、血液样本、唾液、胸腔积液、腹腔积液和脑脊液;优选地,所述步骤(S1

1)包含获取所述待测样本和/或参考样本在目标区间中每个碱基的所述测序数据;优选地,所述测序数据包含测序读长计数;优选地,所述步骤(S1)包含步骤(S1

2):矫正所述待测样本和/或参考样本的所述测序数据;优选地,所述步骤(S1

2)包含:使所述待测样本和/或参考样本的所述测序数据标准化;优选地,所述标准化包含使所述目标区间上所述测序数据除以所述目标区间对应的样本的所有目标区间上所述测序数据的总和,再乘以因子;优选地,所述步骤(S1

2)包含:使所述待测样本和/或参考样本的所述测序数据平滑化;优选地,所述平滑化包含基于测序偏差量,通过回归的方法使所述待测样本和/或参考样本的所述测序数据平滑化;优选地,所述回归包含局部加权回归;优选地,所述测序偏差量包含所述目标区间上覆盖的探针数;优选地,所述测序偏差量包含所述目标区间的GC含量;优选地,所述步骤(S1

2)包含:筛除GC含量异常的所述目标区间;优选地,所述GC含量异常的所述目标区间包含GC含量为约25%或更低的所述目标区间和/或GC含量为约75%或更高的所述目标区间。3.如权利要求1

2中任一项所述的方法,所述步骤(S2)包含步骤(S2

1):使所述参考样本分组;优选地,所述分组包含基于所述目标区间的所述测序数据使所述参考样本分组;优选地,所述分组包含通过聚类分析的方法使所述参考样本分组;优选地,所述聚类分析的方法包含K均值聚类和/或层次聚类;优选地,所述步骤(S2)包含步骤(S2

2):确认所述参考样本组的所述测序数据的统计值;优选地,所述确认统计值包含计算在所述目标区间上每组中所述参考样本的均值和/或标准差;优选地,所述步骤(S2)包含步骤(S2

3):筛除所述参考样本中不合格目标区间;优选地,所述不合格目标区间包含捕获效率低区间和/或不稳定区间;优选地,所述不合格目标区间包含测序读长计数为约5或更低的目标区间;优选地,所述不合格目标区间包含变异系数为约0.8或更高的目标区间,所述变异系数为所述目标区间上每组中所述参考样本的所述测序数据的标准差与均值的比值。4.如权利要求1

3中任一项所述的方法,所述步骤(S3)包含确认所述待测样本与所述参考样本组的相似度;优选地,所述确认相似度包含基于在所述目标区间上所述参考样本组与所述待测样本的所述测序数据,确认所述参考样本组与所述待测样本的分布相似程度;优选地,所述相似度包含在所述目标区间上所述参考样本组与所述待测样本的所述测序数据的近似程度;优选地,所述确认相似度包含通过计算统计距离的方法,确认所述参考
样本组与所述待测样本的分布相似程度;优选地,所述统计距离包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的统计值;优选地,所述统计距离包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的绝对值的统计值;优选地,所述统计距离包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的绝对值的p次方的统计值,所述p为1或更大;优选地,所述统计值包含求和值;优选地,所述相似度高包含在所述目标区间上所述参考样本组与所述待测样本的所述统计距离短;优选地,所述统计距离包含闵可夫斯基距离。5.如权利要求1

4中任一项所述的方法,所述待测样本的目标基因的拷贝数状态包含述待测样本的目标基因的拷贝数变异的存在和/或数量;优选地,所述拷贝数变异包含拷贝数的扩增和/或缺失;优选地,所述步骤(S4)包含步骤(S4

1):确定所述待测样本的目标基因在目标区间i上的拷贝数CN
i
;优选地,所述确定所述CN
i
包含,使所述待测样本的目标基因所述目标区间上的测序数据的均值除以所述与待测样本最接近的参考样本组在相应目标区间上的测序数据的均值,再乘以倍性,得到所述CN
i
;优选地,所述倍性为2;优选地,所述步骤(S4)包含步骤(S4

2):使所述待测样本的目标区间上的拷贝数降噪化;优选地,所述降噪化包含通过变换分析、主成分分析算法、奇异值分解和/或高斯滤波的方法使所述待测样本的所述目标区间上的拷贝数降噪化;优选地,所述降噪化包含通过离散小波变换的方法使所述待测样本的所述目标区间上的拷贝数降噪化;优选地,所述步骤(S4)包含步骤(S4

3):确定所述待测样本在目标基因上的拷贝数CN
g
。6.如权利要求1

5中任一项所述的方法,所述目标基因包含待确定的拷贝数变异发生的基因;优选地,所述目标基因包含选自以下组基因:ABL1、ABL2、ABRAXAS1、ACVR1、ACVR1B、AKT1、AKT2、AKT3、ALK、ALOX12B、AMER1、APC、AR、ARAF、ARFRP1、ARID1A、ARID1B、ARID2、ARID5B、ASXL1、ASXL2、ASXL3、ATG5、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXIN2、AXL、B2M、BAP1、BARD1、BBC3、BCL10、BCL2、BCL2L1、BCL2L11、BCL2L2、BCL6、BCOR、BCORL1、BIRC3、BLM、BMPR1A、BRAF、BRCA1、BRCA2、BRD4、BRD7、BRINP3、BRIP1、BTG1、BTG2、BTK、CALR、CARD11、CASP8、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD274、CD28、CD58、CD74、CD79A、CD79B、CDC73、CDH1、CDH18、CDK12、CDK4、CDK6、CDK8、CDKN1A、CDKN1B、CDKN1C、CDKN2A、CDKN2B、CDKN2C、CEBPA、CENPA、CHD1、CHD2、CHD4、CHD8、CHEK1、CHEK2、CIC、CIITA、CREBBP、CRKL、CRLF2、CRYBG1、CSF1R、CSF3R、CSMD1、CSMD3、CTCF、CTLA4、CTNNA1、CTNNB1、CUL3、CUL4A、CXCR4、CYLD、CYP17A1、CYP2D6、DAXX、DCUN1D1、DDR1、DDR2、DDX3X、DICER1、DIS3、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、DPYD、DTX1、DUSP22、EED、EGFR、EIF1AX、EIF4E、EMSY、EP300、EPCAM、EPHA2、EPHA3、EPHA5、EPHA7、EPHB1、EPHB4、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERG、ERRFI1、ESR1、ETV4、ETV5、ETV6、EWSR1、EZH2、EZR、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FAS、FAT1、FAT3、FBXW7、FGF10、FGF12、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGF7、FGFR1、FGFR2、FGFR3、FGFR4、FH、FLCN、FLT1、FLT3、FLT4、FOXA1、FOXL2、FOXO1、FOXO3、FOXP1、FRS2、FUBP1、FYN、GABRA6、GALNT12、GATA1、GATA2、GATA3、GATA4、GATA6、GEN1、GID4、GLI1、GNA11、GNA13、GNAQ、GNAS、GPS2、GREM1、GRIN2A、GRM3、GSK3B、H3F3A、H3F3B、H3F3C、HDAC1、HDAC2、HGF、HIST1H1C、HIST1H2BD、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3G、HIST1H3H、HIST1H3I、
HIST1H3J、HIST2H3D、HIST3H3、HLA

A、HLA

B、HLA

C、HNF1A、HOXB13、HRAS、HSD3B1、HSP90AA1、ICOSLG、ID3、IDH1、IDH2、IFNGR1、IGF1、IGF1R、IGF2、IGHD、IGHJ、IGHV、IKBKE、IKZF1、IL10、IL7R、INHA、INHBA、INPP4A、INPP4B、INSR、IRF2、IRF4、IRS1、IRS2、ITK、ITPKB、JAK1、JAK2、JAK3、JUN、KAT6A、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KEL、KIR2DL4、KIR3DL2、KIT、KLF4、KLHL6、KLRC1、KLRC2、KLRK1、KMT2A、KMT2C、KMT2D、KRAS、LATS1、LATS2、LMO1、LRP1B、LTK、LYN、MAF、MAGI2、MALT1、MAP2K1、MAP2K2、MAP2K4、MAP...

【专利技术属性】
技术研发人员:旷婷刘成林张光亮张之宏张周揣少坤汉雨生
申请(专利权)人:广州燃石医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1