一种基于未知CNV样本建立提供CNV检测所需的模拟数据集的方法技术

技术编号:19343038 阅读:45 留言:0更新日期:2018-11-07 14:13
本发明专利技术公开了一种基于未知CNV样本建立提供CNV检测所需的模拟数据集的方法。根据本发明专利技术的方法模拟生成了正常样本的序列数据,减少了样本测序的成本,解决了缺失配对样本和未知原因造成的测序偏好性的问题,提高了检测的准确度。

A method based on unknown CNV samples to establish simulated data sets for CNV detection

The invention discloses a method for establishing an analog data set for providing CNV detection based on unknown CNV samples. The method according to the present invention simulates and generates sequence data of normal samples, reduces the cost of sample sequencing, solves the problem of sequencing preference caused by missing pairs of samples and unknown reasons, and improves the accuracy of detection.

【技术实现步骤摘要】
一种基于未知CNV样本建立提供CNV检测所需的模拟数据集的方法
本专利技术属于生物信息学领域,公开了一种基于未知CNV样本建立提供CNV检测所需的模拟数据集的方法。
技术介绍
拷贝数变异(CopyNumberVariations,CNV)是指与基因组参考序列相比,样本基因组染色体或染色体片段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于1000bp碱基的微缺失、微重复。在生物医学的科学研究及临床应用领域,经常遇到由于基因组拷贝数变异而引起的疾病,如染色体非整倍体、微缺失、微重复造成的流产,胚胎植入失败,各种遗传病以及癌症等等。基因组拷贝数变异的检测可应用到组织检测如肿瘤组织、羊水、流产物组织,液体活检如血液、尿液的细胞、游离核酸,单细胞领域如胚胎植入前遗传学诊断(PreimplantationGeneticDiagnosis,PGD)、胚胎植入前遗传学筛查(PreimplantationGeneticScreening,PGS)、癌症患者血液中游离的循环肿瘤细胞(CirculatingTumorCells,CTC)、孕妇外周血中游离的胎儿细胞、干细胞、单细胞或几个细胞的微生物。目前基因组拷贝数变异检测的主要方法有:比较基因组杂交(ComparativeGenomicHybridization,CGH),荧光定量PCR(realtimefluorescencequantitativePCR,RTFQPCR),荧光原位杂交(FluorescenceInSituHybridization,FISH),多重连接探针扩增技术(MultiplexLigation-dependentProbeAmplification,MLPA),高通量测序。其中,比较基因组杂交分辨率比较低,Mb级,通量低,成本高;荧光定量PCR同样通量低,成本高,一次只能测一个拷贝数变异;荧光原位杂交,只针对特定位置,分辨率低,探针杂交效率不稳定;多重连接探针扩增技术,操作复杂,通量低,成本高,覆盖度小,易造成PCR污染。高通量测序技术(High-throughputsequencing)又称“下一代”测序技术("Next-generation"sequencingtechnology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(nextgenerationsequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deepsequencing)。高通量测序技术可以检测样本全基因组范围内的CNV。按照单个样本产出的测序数据的多少,可以大致分为高深度测序和低深度测序。考虑到商业运营成本和CNV分辨率的需求,通常使用较低测序的深度进行CNV测序。低深度测序适合检测流产组织、植入前胚胎筛查细胞等。这些组织或细胞的CNV通常较大(1000000个碱基级别及以上),不要求CNV的精确断点等。其基本原理是,通过对待测样本和无CNV样本(参照样本)的测序,比较,找出测序reads数显著升高或者降低的区域。这段区域就是发生CNV的区域。然而,对于流产物而言,没有十分理想的参照样本,并且如果每批检测时,都加入参照样本,会提高检测成本。同时,由于一些未知的原因(可能是样本来源,样本状态,以及测序建库的批次不同),会造成不同样本出现不同的测序偏好性,这一点在19号染色体上,体现得最为明显。为了解决缺失配对样本和未知原因造成的偏好性的问题,本专利技术开发了一种基于未知CNV的样本,按照样本特征进行样本分类,并在各个分类中,建立模拟数据以提供CNV检测所需的模拟数据集的方法。
技术实现思路
为了解决现有技术中存在的技术问题,本专利技术的目的在于提供一种基于未知CNV样本,建立模拟数据以提供CNV检测所需的模拟数据集的方法以及根据此方法建立的模拟数据集。本专利技术的方法不仅大大降低了检测成本,而且解决了未知原因造成的测序偏好性的问题。为了实现上述目的,本专利技术采用了如下技术方案:根据本专利技术的一个方面,本专利技术提供了一种用于对未知CNV人类DNA样本进行分类的随机森林模型的建立方法,所述建立方法包括:(1)收集至少400例未知CNV人类DNA样本作为待检测样本,至少一例参照样本,该参照样本符合以下要求:常染色体无异常,至少有一条X染色体和Y染色体,至多有2条X染色体,2条Y染色体;(2)在染色体上划分窗口,统计19号染色体所有窗口内reads数量,提取19号染色体所有窗口及其对应的reads,对这些reads进行均一化,形成文件TAB19;(3)使用聚类方法,将TAB19文件作为输入,依照结果,对样本进行分类,设置分类数为2、3、4、5、6、7;(4)通过随机森林算法,将TAB19文件和步骤(2)获得的分类进行训练,建立随机森林模型。并使用该模型,对原来样本进行预测,分别统计错误率。随着分类数的上升,验证之后的错误率也随之上升。在分类4后,错误率发生显著上升。同时,对各个分类进行统计画图,其也符合过去的经验。前面所述的参照样本包括XY、XXY、XYY或XXYY。本专利技术中使用的用以根据样本特征,将样本聚类的方法,可采用任何免费或商业的聚类方法,如:kmeans聚类、层次聚类、mean-shift聚类、主成分分析(PrincipalComponentAnalysis,PCA)。在本专利技术的具体实施方案中,聚类方法采用的是kmeans。进一步,上面所述步骤(2)的详细过程如下:(I)提取样本DNA,进行高通量测序;(II)将序列比对到参考基因组;(III)比对之后,使用软件samtools对比对后的数据进行排序;(IV)对步骤(III)处理后得到的文件进行滑动窗口reads数及GC含量统计;按照固定窗口长度,统计样本数据在各个窗口内的reads数量,以及在参考基因组中,相应的窗口中的GC含量百分比,将这一过程得到的文件,成为TAB文件;将19号染色体所有窗口及其对应的reads提取出来,做成一个新的文件TAB19。进一步,步骤(IV)中选择的窗口长度,依据测序数据量不同、检测精度不同,窗口可选不同。据经验而言,10kb大小窗口对于测序数据量大约是10Mreads,检测精度在50kb;20kb窗口对应的数据量大约是6Mreads,对应的检测精度是100kb;100kb窗口对应数据量大约是3Mreads,对应检测精度是1M。200kb窗口对应测序量是2.5Mreads,精度是2M。对本专利技术的样本进行测序采用的是高通量测序平台。测序平台不受特别限制,第二代测序平台:包括但不限于华大基因的BGI-seq测序平台、Illumina公司的GA、GAII、GAIIx、HiSeq1000/2000/2500/3000/4000、XTen、XFive、NextSeq500/550、MiSeq,AppliedBiosystems的SOLiD,Roche的454FLX,ThermoFisherScientific(LifeTechnologies)的IonTorrent本文档来自技高网
...

【技术保护点】
1.一种用于对未知CNV人类DNA样本进行分类的随机森林模型的建立方法,其特征在于,所述建立方法包括:(1)收集至少400例未知CNV人类DNA样本作为待检测样本、至少一例参照样本,该参照样本符合以下要求:常染色体无异常,至少有一条X染色体和Y染色体,至多有2条X染色体,2条Y染色体;(2)在染色体上划分窗口,统计19号染色体所有窗口内reads数量,提取19号染色体所有窗口及其对应的reads,均一化后,形成文件TAB19;(3)使用聚类方法,将TAB19文件作为输入,依照结果,对样本进行分类,设置分类数为2、3、4、5、6、7;(4)通过随机森林算法,将TAB19文件和步骤(2)获得的分类进行训练,建立随机森林模型。

【技术特征摘要】
1.一种用于对未知CNV人类DNA样本进行分类的随机森林模型的建立方法,其特征在于,所述建立方法包括:(1)收集至少400例未知CNV人类DNA样本作为待检测样本、至少一例参照样本,该参照样本符合以下要求:常染色体无异常,至少有一条X染色体和Y染色体,至多有2条X染色体,2条Y染色体;(2)在染色体上划分窗口,统计19号染色体所有窗口内reads数量,提取19号染色体所有窗口及其对应的reads,均一化后,形成文件TAB19;(3)使用聚类方法,将TAB19文件作为输入,依照结果,对样本进行分类,设置分类数为2、3、4、5、6、7;(4)通过随机森林算法,将TAB19文件和步骤(2)获得的分类进行训练,建立随机森林模型。2.根据权利要求1所述的建立方法,其特征在于,所述步骤(2)的详细过程如下:(1)提取样本DNA,进行高通量测序;(2)将序列与参考基因组进行比对;(3)比对之后,使用软件samtools对比对后的数据进行排序;(4)对步骤(3)处理后得到的文件行进滑动窗口reads数及GC含量统计;按照固定窗口长度,统计样本数据在各个窗口内的reads数量,以及在参考基因组中,相应的窗口中的GC含量百分比,将这一过程得到的文件,成为TAB文件;将19号染色体所有窗口及其对应的reads提取出来,做成一个新的文件TAB19。3.一种用于对未知CNV人类DNA样本进行分类的随机森林模型,其特征在于,所述随机森林模型是根据权利要求1或2所述的建立方法建立的。4.一种将未知CNV人类DNA样本进行分类的方法,其特征在于,所述方法包括:(1)统计样本中19号染色体的所有reads数;(2)根据步骤(1)获得的reads数和权利要求3所述的随机森林模型,对样本进行分类。5.根据权利要求3所述的方法,其特征在于,所述步骤(2)的详细过程如下:(1)提取样本DNA,进行高通量测序;(2)将序列与参考基因组进行比对;(3)比对之后,使用软件samtools对比对后的数据进行排序;(4)对步骤(3)处理后得到的文件进行滑动窗口reads数及GC含量统计;按照固定窗口长度,统计样本数据在各个窗口内的reads数量,以及在参考基因组中,相应的窗口中的GC含量百分比,将这一过程得到的文件,成为TAB文件;将19号染色体所有窗口及其对应的reads...

【专利技术属性】
技术研发人员:徐寒石刘红杰钱睿王国青邓涛
申请(专利权)人:北京博奥医学检验所有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1