一种检测拷贝数变异的方法、装置和存储介质制造方法及图纸

技术编号:24690089 阅读:78 留言:0更新日期:2020-06-27 09:53
本申请公开了一种检测拷贝数变异的方法、装置和存储介质。本申请检测方法包括,获取待测样本DNA测序数据及其在人类参考基因组上各位置比对数据的步骤;统计待测样本DNA在固定窗口区域内深度的步骤;提取比对异常的数据序列,作为支持拷贝数变异第一维度结果的步骤;提取待测样本DNA窗口深度与分布统计模型显示出差异的窗口的步骤;判断差异窗口差异是否显著,能否得到第一维度结果支持的步骤;以及检测结果输出步骤。本申请检测方法,通过对健康人群DNA的分布统计模型,能准确区分真假拷贝数变异,结合另一维度结果,从不同角度确保拷贝数变异检测结果准确性。本申请检测方法,无需亲缘对照样本,能对单个样本进行拷贝数变异检测。

A method, device and storage medium for detecting copy number variation

【技术实现步骤摘要】
一种检测拷贝数变异的方法、装置和存储介质
本申请涉及拷贝数变异检测领域,特别是涉及一种检测拷贝数变异的方法、装置和存储介质。
技术介绍
拷贝数变异(Copynumbervariation,CNV)是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。CNV是基因组结构变异(Structuralvariation,SV)的重要组成部分。CNV位点的突变率远高于SNP(Singlenucleotidepolymorphism),是人类疾病的重要致病因素之一。随着二代测序技术的快速发展,其逐渐应用于癌症方向及遗传病的科学研究和临床检测,使我们对癌症及遗传病的发生发展、临床表现及发病机理有了全新的认识。大量研究表明,遗传病的产生是与拷贝数变异(CNV)密切相关,并且这种拷贝数变异呈现出区域大小的不稳定性。有的拷贝数变异可能只涉及单个外显子,而有的却涉及多个基因或更有甚者涉及整个染色体的长臂/短臂区域。拷贝数变异的研究为疾病病程发展及治疗提供了新的方向和重要的参考依据。目前主流的检测拷贝数变异的算法主要是基于染色体微阵列分析(CMA)来实现。这种方法存在以下不可避免的内在局限性:1、无法明确找到断点信息;2、通量低,一次只能做较少区域的检测,无法进行高通量的实验;3、只能针对目标区域设计探针进行检测,无法达到全基因组筛查的目的。随着二代测序技术的快速发展,高深度的二代测序技术也可以检测拷贝数变异。但是,基于二代测序的拷贝数变异检测方法同样存在不可避免的局限性:1、由于基因组中同源序列的存在,导致比对错误;2、由于实验的PCR过程会对不同DNA模板有不同的扩增效率,导致凭借深度判断拷贝数变异会有极大的假阳性;3、基于二代测序的染色体拷贝数变异检测(缩写CNV-seq)依赖于待检测样本的父/母正常对照样本,在单个样本情况下很难进行检测。因此,亟需研发一种能够更准确区分真假拷贝数变异,且能够实现单个样本检测而无需亲缘对照样本的检测技术,以满足拷贝数变异研究和临床检测使用的需求。
技术实现思路
本申请的目的是提供一种新的检测拷贝数变异的方法、装置和存储介质。本申请具体采用了以下技术方案:本申请的第一方面公开了一种检测拷贝数变异的方法,包括以下步骤:数据获取步骤,包括获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据;深度统计步骤,包括根据数据获取步骤获取的待测样本DNA测序数据,统计待测样本DNA在固定窗口区域内的深度;异常数据提取步骤,包括根据数据获取步骤中获取的待测样本DNA在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;窗口深度对比步骤,包括根据深度统计步骤的结果,将待测样本DNA的窗口深度与统计的健康人群DNA窗口深度的分布统计模型进行比较,获得与分布统计模型显示出差异的窗口结果;可以理解,该步骤中具体与待测样本DNA的窗口深度进行比较的是分布统计模型中相应的窗口的深度分布模型;拷贝数变异判定步骤,包括根据窗口深度对比步骤的结果,分析与分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到异常数据提取步骤中第一维度结果的支持,则判断为阳性拷贝数变异;检测结果输出步骤,包括根据拷贝数变异判定步骤的判断结果,输出待测样本DNA的所有阳性拷贝数变异。需要说明的是,本申请的拷贝数变异检测方法中,健康人群DNA窗口深度的分布统计模型,是根据健康人群的DNA测序数据统计的,健康人群的DNA在固定窗口区域的深度分布情况,以此作为拷贝数变异的一个区分维度,能够在不需要亲缘对照样本的情况下,对单个样本进行拷贝数变异检测。本申请的一种实现方式中,健康人群DNA窗口深度的分布统计模型的构建方法包括,健康人群DNA数据获取步骤,包括获取健康人群DNA测序数据及健康人群中各单个样本DNA在人类参考基因组上各个位置的比对数据;健康人群DNA窗口深度统计步骤,包括根据健康人群DNA数据获取步骤获取的健康人群DNA测序数据,统计各单个样本DNA在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计所有窗口的深度分布情况,即获得本申请的分布统计模型。在首次采用本申请的检测拷贝数变异的方法时,需要构建健康人群DNA窗口深度的分布统计模型;其中,健康人群DNA数据获取步骤可以与本申请拷贝数变异检测方法中的数据获取步骤整合在一起,同时对测样本DNA测序数据和健康人群DNA测序数据进行提取;同样的,健康人群DNA窗口深度统计步骤可以与本申请拷贝数变异检测方法中的深度统计步骤整合在一起,即统计待测样本DNA在固定窗口区域内的深度,同时统计健康人群中各单个样本DNA在相应的固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布统计模型。可以理解,构建好健康人群DNA窗口深度的分布统计模型后,该分布统计模型可以重复使用,后续进行拷贝数变异检测时,则不需要重复的进行分布统计模型构建。因此,本申请的拷贝数变异检测方法中并没有将健康人群DNA数据获取步骤以及健康人群DNA窗口深度统计步骤整合到本申请的检测方法中。其中,健康人群DNA测序数据的作用是用于构建健康人群基因组中每个固定窗口区域内的深度分布统计模型,原则上,所采用的健康人群DNA测序数据越多,即采集的健康人群的数量越多,相应的深度分布统计模型也越准确,但是数据处理量和成本也会相应增加,因此,具体健康人群DNA测序数据的量可以根据检测条件和所需达到的准确性程度而调整,在此不作具体限定。还需要说明的是,本申请的拷贝数变异检测方法,利用健康人群DNA测序数据,确定健康人群的基因组中每个固定窗口区域内的深度变化范围,从而准确地将拷贝数变异的测序片段筛选出来,实现假阳性拷贝数变化与真实的拷贝数变异区分;并且,结合第一维度结果支撑,从不同的角度确保拷贝数变异检测结果的准确性,降低了拷贝数变异检测的假阳性或假阴性。可以理解,本申请检测方法的数据获取步骤中,待测样本DNA测序数据可以是正常进行测序获得的数据,也可以是事先存储的测序数据;同样的,健康人群DNA测序数据,也可以是采用待测样本DNA相同的方法测序获得的数据,或者是事先构建好的健康人群的DNA测序数据,如果是事先已经准备好的健康人群的DNA测序数据,优选采用与待测样本DNA相同的测序方法获得的数据;即保障健康人群DNA测序数据与待测样本DNA测序数据为平行测序数据,以避免其它因素对本申请检测方法的准确性造成影响。优选的,数据获取步骤包括以下子步骤,获取子步骤,包括获取待测样本DNA测序数据;过滤子步骤,包括对获取子步骤获取的待测样本DNA测序数据进行质检,过滤去除低质量的测序数据;比对子步骤,包括将经过过滤子步骤的测序数据与人类参考基因组比对,获取待测样本DNA的测序片段在人类参考基因组中的位置。优选的,数据获取步骤还包括以下子步骤,去重本文档来自技高网
...

【技术保护点】
1.一种检测拷贝数变异的方法,其特征在于:包括以下步骤,/n数据获取步骤,包括获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据;/n深度统计步骤,包括根据所述数据获取步骤获取的待测样本DNA测序数据,统计待测样本DNA在固定窗口区域内的深度;/n异常数据提取步骤,包括根据所述数据获取步骤中获取的待测样本DNA在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;/n窗口深度对比步骤,包括根据所述深度统计步骤的结果,将所述待测样本DNA的窗口深度与统计的健康人群DNA窗口深度的分布统计模型进行比较,获得与所述分布统计模型显示出差异的窗口结果;/n拷贝数变异判定步骤,包括根据所述窗口深度对比步骤的结果,分析与所述分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到所述异常数据提取步骤中所述第一维度结果的支持,则判断为阳性拷贝数变异;/n检测结果输出步骤,包括根据所述拷贝数变异判定步骤的判断结果,输出待测样本DNA的所有阳性拷贝数变异;/n所述健康人群DNA窗口深度的分布统计模型采用以下方法构建,/n健康人群DNA数据获取步骤,包括获取健康人群DNA测序数据及健康人群中各单个样本DNA在人类参考基因组上各个位置的比对数据;/n健康人群DNA窗口深度统计步骤,包括根据所述健康人群DNA数据获取步骤获取的健康人群DNA测序数据,统计各单个样本DNA在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计获得所有窗口的深度分布情况,即获得所述分布统计模型。/n...

【技术特征摘要】
1.一种检测拷贝数变异的方法,其特征在于:包括以下步骤,
数据获取步骤,包括获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据;
深度统计步骤,包括根据所述数据获取步骤获取的待测样本DNA测序数据,统计待测样本DNA在固定窗口区域内的深度;
异常数据提取步骤,包括根据所述数据获取步骤中获取的待测样本DNA在人类参考基因组上各个位置的比对数据,提取比对异常的数据序列,作为支持拷贝数变异的第一维度结果;
窗口深度对比步骤,包括根据所述深度统计步骤的结果,将所述待测样本DNA的窗口深度与统计的健康人群DNA窗口深度的分布统计模型进行比较,获得与所述分布统计模型显示出差异的窗口结果;
拷贝数变异判定步骤,包括根据所述窗口深度对比步骤的结果,分析与所述分布统计模型显示出差异的窗口,判断其差异是否显著;如果差异显著,且能够得到所述异常数据提取步骤中所述第一维度结果的支持,则判断为阳性拷贝数变异;
检测结果输出步骤,包括根据所述拷贝数变异判定步骤的判断结果,输出待测样本DNA的所有阳性拷贝数变异;
所述健康人群DNA窗口深度的分布统计模型采用以下方法构建,
健康人群DNA数据获取步骤,包括获取健康人群DNA测序数据及健康人群中各单个样本DNA在人类参考基因组上各个位置的比对数据;
健康人群DNA窗口深度统计步骤,包括根据所述健康人群DNA数据获取步骤获取的健康人群DNA测序数据,统计各单个样本DNA在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计获得所有窗口的深度分布情况,即获得所述分布统计模型。


2.根据权利要求1所述的方法,其特征在于:所述数据获取步骤包括以下子步骤,
获取子步骤,包括获取待测样本DNA测序数据;
过滤子步骤,包括对所述获取子步骤获取的待测样本DNA测序数据进行质检,过滤去除低质量的测序数据;
比对子步骤,包括将经过所述过滤子步骤的测序数据与人类参考基因组比对,获取待测样本DNA的测序片段在人类参考基因组中的位置;
优选的,所述数据获取步骤还包括以下子步骤,
去重子步骤,包括根据所述比对子步骤的结果,去除比对到人类参考基因组相同位置的重复的测序片段;
校正子步骤,包括根据所述去重子步骤的结果,重新校正测序数据与人类参考基因组的比对结果;
优选的,所述深度统计步骤,还包括统计待测样本DNA在固定窗口区域内深度的负二项分布情况;
优选的,所述异常数据提取步骤中,比对异常的数据序列包括插入片段大小异常的序列数据、比对方向异常的序列数据、序列数据比对到不同位置的序列数据;
优选的,所述拷贝数变异判定步骤中,判断差异是否显著具体包括,提出零假设和备择假设,并以贝叶斯因子为判别条件,当贝叶斯因子小于设定值时,认为备择假设成立而零假设不成立,即判定为差异显著。


3.根据权利要求1或2所述的方法,其特征在于:分布统计模型的构建方法中,所述健康人群DNA窗口深度统计步骤,还包括统计健康人群中各单个样本DNA在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;
优选的,分布统计模型的构建方法还包括分布统计模型校正步骤,包括根据所述健康人群DNA窗口深度统计步骤获得的分布统计模型,对每个固定窗口的健康人群中各单个样本DNA的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;
优选的,所述分布统计模型校正步骤,还包括统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。


4.一种健康人群DNA窗口深度分布统计模型的构建方法,其特征在于:包括以下步骤,
健康人群DNA数据获取步骤,包括获取健康人群DNA测序数据及健康人群中各单个样本DNA在人类参考基因组上各个位置的比对数据;
健康人群DNA窗口深度统计步骤,包括根据所述健康人群DNA数据获取步骤获取的健康人群DNA测序数据,统计各单个样本DNA在固定窗口区域内的深度,得到每个窗口的深度在健康人群的分布情况,统计完成所有窗口,即获得所述分布统计模型。


5.根据权利要求4所述的构建方法,其特征在于:所述健康人群DNA窗口深度统计步骤,还包括统计健康人群中各单个样本DNA在固定窗口区域内深度的负二项分布情况,以此得到健康人群的各窗口的深度分布统计模型;
优选的,所述构建方法还包括分布统计模型校正步骤,包括根据所述健康人群DNA窗口深度统计步骤获得的分布统计模型,对每个固定窗口的健康人群中各单个样本DNA的深度进行评估,舍去明显偏离的位点,并根据没有舍去的位点的窗口深度分布情况,得到校正的分布统计模型;
优选的,所述分布统计模型校正步骤,还包括统计没有舍去的位点的窗口深度的负二项分布情况,以此得到校正的分布统计模型。


6.一种拷贝数变异检测的装置,其特征在于:包括数据获取模块、深度统计模块、异常数据提取模块、窗口深度对比模块、拷贝数变异判定模块和检测结果输出模块;
所述数据获取模块,包括用于获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据;
所述深度统计模块,包括用于根据所述数据获取模块获取的待测样本DNA测序数据,统计待测样本DNA在固定窗口区域内的深度;
所述异常数...

【专利技术属性】
技术研发人员:陈玥茏刘永初李阳刘阳吕佩涛
申请(专利权)人:安吉康尔深圳科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1