【技术实现步骤摘要】
一种拷贝数变异的检测方法及其应用
[0001]本申请涉及生物信息领域,具体的涉及一种拷贝数变异的检测方法及其应用。
技术介绍
[0002]拷贝数变异(CNV)是人类基因组中常见的变异类型之一。拷贝数变异包括基因拷贝数的扩增和缺失两种变异类型。对于基因拷贝数变异的检测可以用于监测受试者的基因组状态的,也可以用于发现特定疾病与某些基因组变异的关联性关系。例如,基因发生拷贝数变异可能导致多种常见遗传病,如BRCA1/2基因缺失可能导致遗传性乳腺癌的风险;基因发生拷贝数变异可能影响肿瘤的发生和发展,如HER2基因扩增不仅与肿瘤的发生发展相关,还是一个重要的临床治疗监测及预后指标,并且是肿瘤靶向治疗的一个重要靶点。因此,拷贝数变异的检测可以在受试者的基因组状态监测、全基因组关联研究、遗传病的预防以及肿瘤的精准治疗起着至关重要的作用。例如,携带某些特定的拷贝数变异的受试者与普通人群相比,可以具有更高的患有疾病(例如肿瘤)的终生风险。因此,拷贝数变异检测方法可以用于筛选出具有较高风险的受试者,该受试者可以接受疾病的个体化监测,从而可以达到早诊早治的目的。
[0003]传统的拷贝数变异检测方法如ddPCR(微滴式数字PCR)、MLPA(多重连接探针扩增技术)、FISH(荧光原位杂交技术)等,一次只能检测一个或少数几个基因的拷贝数状态,或者只能检测特定基因的拷贝数状态,不能对基因组进行全局分析,具有通量低、成本高的特点。目前,基于高通量技术检测拷贝数变异的方法有很多,但是不同的检测方法结果存在着很大的差异,检测的敏感性和特异性 ...
【技术保护点】
【技术特征摘要】
1.一种拷贝数状态分析方法,包含以下步骤:(S1)获取待测样本的测序数据和/或多个参考样本的测序数据;(S2)将所述参考样本分为两个或以上参考样本组;(S3)确定与所述待测样本最接近的参考样本组;(S4)基于所述与待测样本最接近的参考样本组的测序数据,确定所述待测样本的目标基因的拷贝数状态。2.如权利要求1所述的方法,所述步骤(S1)包含步骤(S1
‑
1):通过基因测序获取所述待测样本和/或所述参考样本的所述测序数据;优选地,该基因测序包含二代基因测序(NGS);优选地,所述样本选自以下组:组织样本、血液样本、唾液、胸腔积液、腹腔积液和脑脊液;优选地,所述步骤(S1
‑
1)包含获取所述待测样本和/或参考样本在目标区间中每个碱基的所述测序数据;优选地,所述测序数据包含测序读长计数;优选地,所述步骤(S1)包含步骤(S1
‑
2):矫正所述待测样本和/或参考样本的所述测序数据;优选地,所述步骤(S1
‑
2)包含:使所述待测样本和/或参考样本的所述测序数据标准化;优选地,所述标准化包含使所述目标区间上所述测序数据除以所述目标区间对应的样本的所有目标区间上所述测序数据的总和,再乘以因子;优选地,所述步骤(S1
‑
2)包含:使所述待测样本和/或参考样本的所述测序数据平滑化;优选地,所述平滑化包含基于测序偏差量,通过回归的方法使所述待测样本和/或参考样本的所述测序数据平滑化;优选地,所述回归包含局部加权回归;优选地,所述测序偏差量包含所述目标区间上覆盖的探针数;优选地,所述测序偏差量包含所述目标区间的GC含量;优选地,所述步骤(S1
‑
2)包含:筛除GC含量异常的所述目标区间;优选地,所述GC含量异常的所述目标区间包含GC含量为约25%或更低的所述目标区间和/或GC含量为约75%或更高的所述目标区间。3.如权利要求1
‑
2中任一项所述的方法,所述步骤(S2)包含步骤(S2
‑
1):使所述参考样本分组;优选地,所述分组包含基于所述目标区间的所述测序数据使所述参考样本分组;优选地,所述分组包含通过聚类分析的方法使所述参考样本分组;优选地,所述聚类分析的方法包含K均值聚类和/或层次聚类;优选地,所述步骤(S2)包含步骤(S2
‑
2):确认所述参考样本组的所述测序数据的统计值;优选地,所述确认统计值包含计算在所述目标区间上每组中所述参考样本的均值和/或标准差;优选地,所述步骤(S2)包含步骤(S2
‑
3):筛除所述参考样本中不合格目标区间;优选地,所述不合格目标区间包含捕获效率低区间和/或不稳定区间;优选地,所述不合格目标区间包含测序读长计数为约5或更低的目标区间;优选地,所述不合格目标区间包含变异系数为约0.8或更高的目标区间,所述变异系数为所述目标区间上每组中所述参考样本的所述测序数据的标准差与均值的比值。4.如权利要求1
‑
3中任一项所述的方法,所述步骤(S3)包含确认所述待测样本与所述参考样本组的相似度;优选地,所述确认相似度包含基于在所述目标区间上所述参考样本组与所述待测样本的所述测序数据,确认所述参考样本组与所述待测样本的分布相似程度;优选地,所述相似度包含在所述目标区间上所述参考样本组与所述待测样本的所述测序数据的近似程度;优选地,所述确认相似度包含通过计算统计距离的方法,确认所述参考
样本组与所述待测样本的分布相似程度;优选地,所述统计距离包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的统计值;优选地,所述统计距离包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的绝对值的统计值;优选地,所述统计距离包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的绝对值的p次方的统计值,所述p为1或更大;优选地,所述统计值包含求和值;优选地,所述相似度高包含在所述目标区间上所述参考样本组与所述待测样本的所述统计距离短;优选地,所述统计距离包含闵可夫斯基距离。5.如权利要求1
‑
4中任一项所述的方法,所述待测样本的目标基因的拷贝数状态包含述待测样本的目标基因的拷贝数变异的存在和/或数量;优选地,所述拷贝数变异包含拷贝数的扩增和/或缺失;优选地,所述步骤(S4)包含步骤(S4
‑
1):确定所述待测样本的目标基因在目标区间i上的拷贝数CN
i
;优选地,所述确定所述CN
i
包含,使所述待测样本的目标基因所述目标区间上的测序数据的均值除以所述与待测样本最接近的参考样本组在相应目标区间上的测序数据的均值,再乘以倍性,得到所述CN
i
;优选地,所述倍性为2;优选地,所述步骤(S4)包含步骤(S4
‑
2):使所述待测样本的目标区间上的拷贝数降噪化;优选地,所述降噪化包含通过变换分析、主成分分析算法、奇异值分解和/或高斯滤波的方法使所述待测样本的所述目标区间上的拷贝数降噪化;优选地,所述降噪化包含通过离散小波变换的方法使所述待测样本的所述目标区间上的拷贝数降噪化;优选地,所述步骤(S4)包含步骤(S4
‑
3):确定所述待测样本在目标基因上的拷贝数CN
g
。6.如权利要求1
‑
5中任一项所述的方法,所述目标基因包含待确定的拷贝数变异发生的基因;优选地,所述目标基因包含选自以下组基因:ABL1、ABL2、ABRAXAS1、ACVR1、ACVR1B、AKT1、AKT2、AKT3、ALK、ALOX12B、AMER1、APC、AR、ARAF、ARFRP1、ARID1A、ARID1B、ARID2、ARID5B、ASXL1、ASXL2、ASXL3、ATG5、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXIN2、AXL、B2M、BAP1、BARD1、BBC3、BCL10、BCL2、BCL2L1、BCL2L11、BCL2L2、BCL6、BCOR、BCORL1、BIRC3、BLM、BMPR1A、BRAF、BRCA1、BRCA2、BRD4、BRD7、BRINP3、BRIP1、BTG1、BTG2、BTK、CALR、CARD11、CASP8、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD274、CD28、CD58、CD74、CD79A、CD79B、CDC73、CDH1、CDH18、CDK12、CDK4、CDK6、CDK8、CDKN1A、CDKN1B、CDKN1C、CDKN2A、CDKN2B、CDKN2C、CEBPA、CENPA、CHD1、CHD2、CHD4、CHD8、CHEK1、CHEK2、CIC、CIITA、CREBBP、CRKL、CRLF2、CRYBG1、CSF1R、CSF3R、CSMD1、CSMD3、CTCF、CTLA4、CTNNA1、CTNNB1、CUL3、CUL4A、CXCR4、CYLD、CYP17A1、CYP2D6、DAXX、DCUN1D1、DDR1、DDR2、DDX3X、DICER1、DIS3、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、DPYD、DTX1、DUSP22、EED、EGFR、EIF1AX、EIF4E、EMSY、EP300、EPCAM、EPHA2、EPHA3、EPHA5、EPHA7、EPHB1、EPHB4、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERG、ERRFI1、ESR1、ETV4、ETV5、ETV6、EWSR1、EZH2、EZR、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FAS、FAT1、FAT3、FBXW7、FGF10、FGF12、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGF7、FGFR1、FGFR2、FGFR3、FGFR4、FH、FLCN、FLT1、FLT3、FLT4、FOXA1、FOXL2、FOXO1、FOXO3、FOXP1、FRS2、FUBP1、FYN、GABRA6、GALNT12、GATA1、GATA2、GATA3、GATA4、GATA6、GEN1、GID4、GLI1、GNA11、GNA13、GNAQ、GNAS、GPS2、GREM1、GRIN2A、GRM3、GSK3B、H3F3A、H3F3B、H3F3C、HDAC1、HDAC2、HGF、HIST1H1C、HIST1H2BD、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3G、HIST1H3H、HIST1H3I、
HIST1H3J、HIST2H3D、HIST3H3、HLA
‑
A、HLA
‑
B、HLA
‑
C、HNF1A、HOXB13、HRAS、HSD3B1、HSP90AA1、ICOSLG、ID3、IDH1、IDH2、IFNGR1、IGF1、IGF1R、IGF2、IGHD、IGHJ、IGHV、IKBKE、IKZF1、IL10、IL7R、INHA、INHBA、INPP4A、INPP4B、INSR、IRF2、IRF4、IRS1、IRS2、ITK、ITPKB、JAK1、JAK2、JAK3、JUN、KAT6A、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KEL、KIR2DL4、KIR3DL2、KIT、KLF4、KLHL6、KLRC1、KLRC2、KLRK1、KMT2A、KMT2C、KMT2D、KRAS、LATS1、LATS2、LMO1、LRP1B、LTK、LYN、MAF、MAGI2、MALT1、MAP2K1、MAP2K2、MAP2K4、MAP...
【专利技术属性】
技术研发人员:旷婷,刘成林,张光亮,张之宏,张周,揣少坤,汉雨生,
申请(专利权)人:广州燃石医学检验所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。