The invention discloses a method for establishing an analog data set for providing CNV detection based on unknown CNV samples. The method according to the present invention simulates and generates sequence data of normal samples, reduces the cost of sample sequencing, solves the problem of sequencing preference caused by missing pairs of samples and unknown reasons, and improves the accuracy of detection.
【技术实现步骤摘要】
一种基于未知CNV样本建立提供CNV检测所需的模拟数据集的方法
本专利技术属于生物信息学领域,公开了一种基于未知CNV样本建立提供CNV检测所需的模拟数据集的方法。
技术介绍
拷贝数变异(CopyNumberVariations,CNV)是指与基因组参考序列相比,样本基因组染色体或染色体片段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于1000bp碱基的微缺失、微重复。在生物医学的科学研究及临床应用领域,经常遇到由于基因组拷贝数变异而引起的疾病,如染色体非整倍体、微缺失、微重复造成的流产,胚胎植入失败,各种遗传病以及癌症等等。基因组拷贝数变异的检测可应用到组织检测如肿瘤组织、羊水、流产物组织,液体活检如血液、尿液的细胞、游离核酸,单细胞领域如胚胎植入前遗传学诊断(PreimplantationGeneticDiagnosis,PGD)、胚胎植入前遗传学筛查(PreimplantationGeneticScreening,PGS)、癌症患者血液中游离的循环肿瘤细胞(CirculatingTumorCells,CTC)、孕妇外周血中游离的胎儿细胞、干细胞、单细胞或几个细胞的微生物。目前基因组拷贝数变异检测的主要方法有:比较基因组杂交(ComparativeGenomicHybridization,CGH),荧光定量PCR(realtimefluorescencequantitativePCR,RTFQPCR),荧光原位杂交(FluorescenceInSituHybridization,FISH),多重连接探针扩增技术(MultiplexLigati ...
【技术保护点】
1.一种用于对未知CNV人类DNA样本进行分类的随机森林模型的建立方法,其特征在于,所述建立方法包括:(1)收集至少400例未知CNV人类DNA样本作为待检测样本、至少一例参照样本,该参照样本符合以下要求:常染色体无异常,至少有一条X染色体和Y染色体,至多有2条X染色体,2条Y染色体;(2)在染色体上划分窗口,统计19号染色体所有窗口内reads数量,提取19号染色体所有窗口及其对应的reads,均一化后,形成文件TAB19;(3)使用聚类方法,将TAB19文件作为输入,依照结果,对样本进行分类,设置分类数为2、3、4、5、6、7;(4)通过随机森林算法,将TAB19文件和步骤(2)获得的分类进行训练,建立随机森林模型。
【技术特征摘要】
1.一种用于对未知CNV人类DNA样本进行分类的随机森林模型的建立方法,其特征在于,所述建立方法包括:(1)收集至少400例未知CNV人类DNA样本作为待检测样本、至少一例参照样本,该参照样本符合以下要求:常染色体无异常,至少有一条X染色体和Y染色体,至多有2条X染色体,2条Y染色体;(2)在染色体上划分窗口,统计19号染色体所有窗口内reads数量,提取19号染色体所有窗口及其对应的reads,均一化后,形成文件TAB19;(3)使用聚类方法,将TAB19文件作为输入,依照结果,对样本进行分类,设置分类数为2、3、4、5、6、7;(4)通过随机森林算法,将TAB19文件和步骤(2)获得的分类进行训练,建立随机森林模型。2.根据权利要求1所述的建立方法,其特征在于,所述步骤(2)的详细过程如下:(1)提取样本DNA,进行高通量测序;(2)将序列与参考基因组进行比对;(3)比对之后,使用软件samtools对比对后的数据进行排序;(4)对步骤(3)处理后得到的文件行进滑动窗口reads数及GC含量统计;按照固定窗口长度,统计样本数据在各个窗口内的reads数量,以及在参考基因组中,相应的窗口中的GC含量百分比,将这一过程得到的文件,成为TAB文件;将19号染色体所有窗口及其对应的reads提取出来,做成一个新的文件TAB19。3.一种用于对未知CNV人类DNA样本进行分类的随机森林模型,其特征在于,所述随机森林模型是根据权利要求1或2所述的建立方法建立的。4.一种将未知CNV人类DNA样本进行分类的方法,其特征在于,所述方法包括:(1)统计样本中19号染色体的所有reads数;(2)根据步骤(1)获得的reads数和权利要求3所述的随机森林模型,对样本进行分类。5.根据权利要求3所述的方法,其特征在于,所述步骤(2)的详细过程如下:(1)提取样本DNA,进行高通量测序;(2)将序列与参考基因组进行比对;(3)比对之后,使用软件samtools对比对后的数据进行排序;(4)对步骤(3)处理后得到的文件进行滑动窗口reads数及GC含量统计;按照固定窗口长度,统计样本数据在各个窗口内的reads数量,以及在参考基因组中,相应的窗口中的GC含量百分比,将这一过程得到的文件,成为TAB文件;将19号染色体所有窗口及其对应的reads...
【专利技术属性】
技术研发人员:徐寒石,刘红杰,钱睿,王国青,邓涛,
申请(专利权)人:北京博奥医学检验所有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。