一种检测拷贝数变异的方法、装置和存储介质制造方法及图纸

技术编号：24690089 阅读：78 留言：0更新日期：2020-06-27 09:53

本申请公开了一种检测拷贝数变异的方法、装置和存储介质。本申请检测方法包括，获取待测样本DNA测序数据及其在人类参考基因组上各位置比对数据的步骤；统计待测样本DNA在固定窗口区域内深度的步骤；提取比对异常的数据序列，作为支持拷贝数变异第一维度结果的步骤；提取待测样本DNA窗口深度与分布统计模型显示出差异的窗口的步骤；判断差异窗口差异是否显著，能否得到第一维度结果支持的步骤；以及检测结果输出步骤。本申请检测方法，通过对健康人群DNA的分布统计模型，能准确区分真假拷贝数变异，结合另一维度结果，从不同角度确保拷贝数变异检测结果准确性。本申请检测方法，无需亲缘对照样本，能对单个样本进行拷贝数变异检测。

A method, device and storage medium for detecting copy number variation

全部详细技术资料下载

【技术实现步骤摘要】
一种检测拷贝数变异的方法、装置和存储介质
本申请涉及拷贝数变异检测领域，特别是涉及一种检测拷贝数变异的方法、装置和存储介质。
技术介绍
拷贝数变异(Copynumbervariation,CNV)是由基因组发生重排而导致的，一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少，主要表现为亚显微水平的缺失和重复。CNV是基因组结构变异(Structuralvariation,SV)的重要组成部分。CNV位点的突变率远高于SNP(Singlenucleotidepolymorphism)，是人类疾病的重要致病因素之一。随着二代测序技术的快速发展，其逐渐应用于癌症方向及遗传病的科学研究和临床检测，使我们对癌症及遗传病的发生发展、临床表现及发病机理有了全新的认识。大量研究表明，遗传病的产生是与拷贝数变异(CNV)密切相关，并且这种拷贝数变异呈现出区域大小的不稳定性。有的拷贝数变异可能只涉及单个外显子，而有的却涉及多个基因或更有甚者涉及整个染色体的长臂/短臂区域。拷贝数变异的研究为疾病病程发展及治疗提供了新的方向和重要的参考依据。目前主流的检测拷贝数变异的算法主要是基于染色体微阵列分析(CMA)来实现。这种方法存在以下不可避免的内在局限性：1、无法明确找到断点信息；2、通量低，一次只能做较少区域的检测，无法进行高通量的实验；3、只能针对目标区域设计探针进行检测，无法达到全基因组筛查的目的。随着二代测序技术的快速发展，高深度的二代测序技术也可以检测拷贝数变异。但是，基于二代测序的拷贝数变异检测方法同样...

【技术保护点】
1.一种检测拷贝数变异的方法，其特征在于：包括以下步骤，/n数据获取步骤，包括获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据；/n深度统计步骤，包括根据所述数据获取步骤获取的待测样本DNA测序数据，统计待测样本DNA在固定窗口区域内的深度；/n异常数据提取步骤，包括根据所述数据获取步骤中获取的待测样本DNA在人类参考基因组上各个位置的比对数据，提取比对异常的数据序列，作为支持拷贝数变异的第一维度结果；/n窗口深度对比步骤，包括根据所述深度统计步骤的结果，将所述待测样本DNA的窗口深度与统计的健康人群DNA窗口深度的分布统计模型进行比较，获得与所述分布统计模型显示出差异的窗口结果；/n拷贝数变异判定步骤，包括根据所述窗口深度对比步骤的结果，分析与所述分布统计模型显示出差异的窗口，判断其差异是否显著；如果差异显著，且能够得到所述异常数据提取步骤中所述第一维度结果的支持，则判断为阳性拷贝数变异；/n检测结果输出步骤，包括根据所述拷贝数变异判定步骤的判断结果，输出待测样本DNA的所有阳性拷贝数变异；/n所述健康人群DNA窗口深度的分布统计模型采用以下方法构建，/n健康人群D...

【技术特征摘要】
1.一种检测拷贝数变异的方法，其特征在于：包括以下步骤，
数据获取步骤，包括获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据；
深度统计步骤，包括根据所述数据获取步骤获取的待测样本DNA测序数据，统计待测样本DNA在固定窗口区域内的深度；
异常数据提取步骤，包括根据所述数据获取步骤中获取的待测样本DNA在人类参考基因组上各个位置的比对数据，提取比对异常的数据序列，作为支持拷贝数变异的第一维度结果；
窗口深度对比步骤，包括根据所述深度统计步骤的结果，将所述待测样本DNA的窗口深度与统计的健康人群DNA窗口深度的分布统计模型进行比较，获得与所述分布统计模型显示出差异的窗口结果；
拷贝数变异判定步骤，包括根据所述窗口深度对比步骤的结果，分析与所述分布统计模型显示出差异的窗口，判断其差异是否显著；如果差异显著，且能够得到所述异常数据提取步骤中所述第一维度结果的支持，则判断为阳性拷贝数变异；
检测结果输出步骤，包括根据所述拷贝数变异判定步骤的判断结果，输出待测样本DNA的所有阳性拷贝数变异；
所述健康人群DNA窗口深度的分布统计模型采用以下方法构建，
健康人群DNA数据获取步骤，包括获取健康人群DNA测序数据及健康人群中各单个样本DNA在人类参考基因组上各个位置的比对数据；
健康人群DNA窗口深度统计步骤，包括根据所述健康人群DNA数据获取步骤获取的健康人群DNA测序数据，统计各单个样本DNA在固定窗口区域内的深度，得到每个窗口的深度在健康人群的分布情况，统计获得所有窗口的深度分布情况，即获得所述分布统计模型。

2.根据权利要求1所述的方法，其特征在于：所述数据获取步骤包括以下子步骤，
获取子步骤，包括获取待测样本DNA测序数据；
过滤子步骤，包括对所述获取子步骤获取的待测样本DNA测序数据进行质检，过滤去除低质量的测序数据；
比对子步骤，包括将经过所述过滤子步骤的测序数据与人类参考基因组比对，获取待测样本DNA的测序片段在人类参考基因组中的位置；
优选的，所述数据获取步骤还包括以下子步骤，
去重子步骤，包括根据所述比对子步骤的结果，去除比对到人类参考基因组相同位置的重复的测序片段；
校正子步骤，包括根据所述去重子步骤的结果，重新校正测序数据与人类参考基因组的比对结果；
优选的，所述深度统计步骤，还包括统计待测样本DNA在固定窗口区域内深度的负二项分布情况；
优选的，所述异常数据提取步骤中，比对异常的数据序列包括插入片段大小异常的序列数据、比对方向异常的序列数据、序列数据比对到不同位置的序列数据；
优选的，所述拷贝数变异判定步骤中，判断差异是否显著具体包括，提出零假设和备择假设，并以贝叶斯因子为判别条件，当贝叶斯因子小于设定值时，认为备择假设成立而零假设不成立，即判定为差异显著。

3.根据权利要求1或2所述的方法，其特征在于：分布统计模型的构建方法中，所述健康人群DNA窗口深度统计步骤，还包括统计健康人群中各单个样本DNA在固定窗口区域内深度的负二项分布情况，以此得到健康人群的各窗口的深度分布统计模型；
优选的，分布统计模型的构建方法还包括分布统计模型校正步骤，包括根据所述健康人群DNA窗口深度统计步骤获得的分布统计模型，对每个固定窗口的健康人群中各单个样本DNA的深度进行评估，舍去明显偏离的位点，并根据没有舍去的位点的窗口深度分布情况，得到校正的分布统计模型；
优选的，所述分布统计模型校正步骤，还包括统计没有舍去的位点的窗口深度的负二项分布情况，以此得到校正的分布统计模型。

4.一种健康人群DNA窗口深度分布统计模型的构建方法，其特征在于：包括以下步骤，
健康人群DNA数据获取步骤，包括获取健康人群DNA测序数据及健康人群中各单个样本DNA在人类参考基因组上各个位置的比对数据；
健康人群DNA窗口深度统计步骤，包括根据所述健康人群DNA数据获取步骤获取的健康人群DNA测序数据，统计各单个样本DNA在固定窗口区域内的深度，得到每个窗口的深度在健康人群的分布情况，统计完成所有窗口，即获得所述分布统计模型。

5.根据权利要求4所述的构建方法，其特征在于：所述健康人群DNA窗口深度统计步骤，还包括统计健康人群中各单个样本DNA在固定窗口区域内深度的负二项分布情况，以此得到健康人群的各窗口的深度分布统计模型；
优选的，所述构建方法还包括分布统计模型校正步骤，包括根据所述健康人群DNA窗口深度统计步骤获得的分布统计模型，对每个固定窗口的健康人群中各单个样本DNA的深度进行评估，舍去明显偏离的位点，并根据没有舍去的位点的窗口深度分布情况，得到校正的分布统计模型；
优选的，所述分布统计模型校正步骤，还包括统计没有舍去的位点的窗口深度的负二项分布情况，以此得到校正的分布统计模型。

6.一种拷贝数变异检测的装置，其特征在于：包括数据获取模块、深度统计模块、异常数据提取模块、窗口深度对比模块、拷贝数变异判定模块和检测结果输出模块；
所述数据获取模块，包括用于获取待测样本DNA测序数据及其在人类参考基因组上各个位置的比对数据；
所述深度统计模块，包括用于根据所述数据获取模块获取的待测样本DNA测序数据，统计待测样本DNA在固定窗口区域内的深度；
所述异常数...

【专利技术属性】
技术研发人员：陈玥茏，刘永初，李阳，刘阳，吕佩涛，
申请(专利权)人：安吉康尔深圳科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人