检测指定基因组区域体细胞拷贝数变异的方法和装置制造方法及图纸

技术编号:26422551 阅读:44 留言:0更新日期:2020-11-20 14:19
本发明专利技术涉及基因领域,特别是涉及一种检测指定基因组区域体细胞拷贝数变异的方法和装置。本发明专利技术综合log

【技术实现步骤摘要】
检测指定基因组区域体细胞拷贝数变异的方法和装置
本专利技术涉及基因领域,特别是涉及一种检测指定基因组区域体细胞拷贝数变异的方法和装置。
技术介绍
拷贝数变异(CopyNumberVariations,CNV)是DNA序列结构变异的一种形式,包括特定DNA片段(>1kb)的复制和缺失,是人类基因组正常变异和致病变异的重要来源。二代测序(NGS)技术的发展大大提高了检测所有类型的基因组变异的能力,从单核苷酸变异和小插入缺失到CNV和其他形式的结构变异(SV)。利用全基因组测序数据检测CNV能力最强,但是由于其高昂的成本,大多检测CNV的工具和方法都是利用全外显子测序数据。然而,与全基因组测序(WGS)相比,全外显子测序(WES)引入了更多的偏差和噪声,使CNV检测非常具有挑战性。此外,肿瘤的复杂性使癌症特异性CNV的检测更加困难。Control-FREEC软件最终的输出结果将拷贝数取整,所以对肿瘤细胞比例不明确或者比例比较低的样本检测效果不佳,并且该算法无法检测到拷贝数在2.5以下的CNV。目前,CNV的计算都是来自于两种数据,log2(copyRatio)和B-AlleleFrequency(BAF)。log2(copyRatio)用于计算CNV片段,BAF则用于计算杂合体的缺失(Lossofheterozygosity,LOH)和等位基因的失衡(AllelicImbalance)。log2(copyRatio)值是通过对照样本和肿瘤样本读段深度计算。读段深度法是根据读段在染色体上的分布密度,发现扩增或缺失,其基本原理是扩增区域比周围区域的读段密度高,而缺失区域比周围区域的读段密度低。读段深度法通常将基因组分为若干个窗口,然后进行密度计算,因此,其计算得到的断点的精确度不会超过窗口的大小。CNVkit软件仅给出一个相对拷贝数的相对变化幅度log2(copyRatio)的估计,对于片段是否为CNV并不进行检验,需要使用者自行设置阈值进行判断;输出结果没有提示统计学意义,且较难解释。对于长基因,经常会出现单个基因被分入不同的CNV片段且推算的拷贝数不同的情况。BAF值为0-1,表示某个SNP等位基因相对于整个拷贝数的比例,BAF为0.5代表杂合型(AB),0和1分别代表纯合型(如AA和BB)。如果某个区域存在缺失将会显示为纯合型,BAF值将为0或1。如果某个区域存在单拷贝重复,除了纯合SNP的BAF值为0或1(AAA或BBB)外,其余BAF值将为0.33(AAB)和0.67(ABB)。上述这些软件或统计值,基本都单独应用于样本拷贝数变异检测中,且在现有技术中必须通过变异检测流程及注释流程才可明确基因或区间的拷贝数变异信息。因此,能够开发能够有效地对指定的基因或区间进行高效、准确、低成本的拷贝数变异检测方法将具有重要意义。
技术实现思路
因此,本专利技术要解决的技术问题在于克服现有技术中的拷贝数变异检测必须基于变异检测流程及注释流程才可实现对指定基因进行拷贝数变异分析的缺陷,从而提供一种能够一步操作即高效地对指定的基因或区间检测体细胞拷贝数变异的方法和装置,具有成本低,效率高或准确率高的优势。本专利技术提供了一种检测指定基因组区域体细胞拷贝数变异的方法,包括:获取已知指定基因组区域拷贝数变异情况的肿瘤样本,其配对样本作为对照样本;肿瘤样本和对照样本的测序数据分别与参考基因组比对得到比对结果文件;基于比对结果文件,在指定基因组区域的目标捕获区域或非目标捕获区域划窗口,分别计算肿瘤样本和对照样本在每个窗口内的均一化的读长覆盖度,然后计算肿瘤样本和对照样本的均一化的读长覆盖度的差异显著性P值,对应目标捕获区域得到差异显著性P1值,对应非目标捕获区域得到差异显著性P2值;基于肿瘤样本和对照样本在指定基因组区域的目标捕获区域的每个窗口内的均一化的读长覆盖度,计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的log2(copyRatio)值;分别计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的B等位基因频率,然后计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的B等位基因频率的差异显著性P3值;利用上述获得的log2(copyRatio)值、P1值、P2值、P3值以及已知指定基因组区域拷贝数变异情况构建机器学习模型,并得到判定阈值;或利用上述获得的log2(copyRatio)值、P1值、P3值以及已知指定基因组区域拷贝数变异情况构建机器学习模型,并得到判定阈值;待检测肿瘤样本和配对样本按照上述步骤分别计算log2(copyRatio)值、P1值、P2值和P3值,或log2(copyRatio)值、P1值和P3值,通过机器学习模型分析,所得分析结果与阈值比较,确定待检测肿瘤样本在指定分析区域是否发生体细胞拷贝数变异。其中,针对全外显子测序数据和靶向捕获测序数据,目标捕获区域为测序芯片探针捕获区域,非目标捕获区域为全基因组区域去除掉blacklist区域(比如N区域、着丝粒区域等)和目标捕获区域外的其它区域。针对全基因组测序则不存在非目标捕获区域数据。进一步的,在计算均一化的读长覆盖度的差异显著性P值步骤中,分别选择T检验和KS检验计算差异显著性,对应目标捕获区域得到差异显著性P1T值和P1ks值,对应非目标捕获区域得到差异显著性P2t值和P2ks值。进一步的,在指定基因组区域的目标捕获区域划窗口时,每一个窗口至少有200条读段;或在指定基因组区域的非目标捕获区域划窗口时,每一个窗口至少有200条读段。其中,对于非目标捕获区域,具体为距离指定基因组区域最近的前后各30个非目标捕获区域划窗口的长度。进一步的,在计算B等位基因频率的差异显著性P3值的步骤中,分别选择T检验和KS检验计算差异显著性,得到B等位基因频率的差异显著性P3T值和P3KS值。进一步的,从已知数据库中获取突变频率≥0.05的胚系变异位点,备用,然后基于比对结果文件,筛选出测序深度≥10X,且对照样本中为杂合的备用的胚系变异位点作为BAF检查位点集。进一步的,进行B等位基因频率的差异显著性分析时,肿瘤样本和对照样本在指定基因组区域内目标捕获区域的BAF检查位点至少为30个,当数量小于30时,通过将指定基因组区域向两边延伸进行补充,以得到目标数量的BAF检查位点。进一步的,在log2(copyRatio)值步骤中,对指定基因组区域的目标捕获区域划窗口,保证每一个窗口至少有200条读段,分别计算每个窗口的log2(copyRatio)值,然后对所有窗口的log2(copyRatio)值取中值。进一步的,所述机器学习模型选自梯度提升决策树、支持向量机、朴素贝叶斯、Adaboost算法、逻辑回归或随机森林。进一步的,利用所述机器学习模型分析结果绘制ROC曲线,选择高AUC值、高灵敏度和高特异性的条件下分析结果为判定阈值。进一步的,在本专利技术中,高AUC值、高灵敏度和高特异性各自的范围值分别为本文档来自技高网
...

【技术保护点】
1.一种检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,包括:/n获取已知指定基因组区域拷贝数变异情况的肿瘤样本,其配对样本作为对照样本;肿瘤样本和对照样本的测序数据分别与参考基因组比对得到比对结果文件;/n基于比对结果文件,在指定基因组区域的目标捕获区域或非目标捕获区域划窗口,分别计算肿瘤样本和对照样本在每个窗口内的均一化的读长覆盖度,然后计算肿瘤样本和对照样本的均一化的读长覆盖度的差异显著性P值,对应目标捕获区域得到差异显著性P1值,对应非目标捕获区域得到差异显著性P2值;/n基于肿瘤样本和对照样本在指定基因组区域的目标捕获区域的每个窗口内的均一化的读长覆盖度,计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的log

【技术特征摘要】
1.一种检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,包括:
获取已知指定基因组区域拷贝数变异情况的肿瘤样本,其配对样本作为对照样本;肿瘤样本和对照样本的测序数据分别与参考基因组比对得到比对结果文件;
基于比对结果文件,在指定基因组区域的目标捕获区域或非目标捕获区域划窗口,分别计算肿瘤样本和对照样本在每个窗口内的均一化的读长覆盖度,然后计算肿瘤样本和对照样本的均一化的读长覆盖度的差异显著性P值,对应目标捕获区域得到差异显著性P1值,对应非目标捕获区域得到差异显著性P2值;
基于肿瘤样本和对照样本在指定基因组区域的目标捕获区域的每个窗口内的均一化的读长覆盖度,计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的log2(copyRatio)值;
分别计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的B等位基因频率,然后计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的B等位基因频率的差异显著性P3值;
利用上述获得的log2(copyRatio)值、P1值、P2值、P3值以及已知指定基因组区域拷贝数变异情况构建机器学习模型,并得到判定阈值;或利用上述获得的log2(copyRatio)值、P1值、P3值以及已知指定基因组区域拷贝数变异情况构建机器学习模型,并得到判定阈值;
待检测肿瘤样本和配对样本按照上述步骤计算log2(copyRatio)值、P1值、P2值和P3值,或log2(copyRatio)值、P1值和P3值,通过机器学习模型分析,所得分析结果与所述判定阈值比较,确定待检测肿瘤样本在指定分析区域是否发生体细胞拷贝数变异。


2.根据权利要求1所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在计算均一化的读长覆盖度的差异显著性P值步骤中,分别选择T检验和KS检验计算差异显著性,对应目标捕获区域得到差异显著性P1T值和P1ks值,对应非目标捕获区域得到差异显著性P2t值和P2ks值。


3.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在指定基因组区域的目标捕获区域划窗口时,每一个窗口至少有200条读段;或在指定基因组区域的非目标捕获区域划窗口时,每一个窗口至少有200条读段。


4.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在计算B等位基因频率的差异显著性P3值的步骤中,分别选择T检验和KS检验计算差异显著性,得到B等位基因频率的差异显著性P3T值和P3KS值。


5.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,从已知数据库中获取突变频率≥0.05的胚系变异位点,备用,然后基于比对结果文件,筛选出测序深度≥10X,且对照样本中为杂合的备用的胚系变异位点作为BAF检查位点集合。


6.根据权利要求4或5所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,进行B等位基因频率的差异显著性分析时,肿瘤样本和对照样本在指定基因组区域内目标捕获区域的BAF检查位点至少为30个,当数量小于30时,通过将指定基因组区域向两边延伸进行补充,以得到目标数量的BAF检查位点。


7.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在log2(copyRatio)值步骤中,对指定基因组区域的目标捕获区域划窗口,保证每一个窗口至少有200条读段,分别计算每个窗口的log2(copyRatio)值,然后对所有窗口的log2(copyRatio)值取中值。


8.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,所述机器学习模型选自梯度提升决策树、支持向量机、朴素贝叶斯、Adaboost算法、逻辑回归或随机森林。


9.根据权利要求1或2所...

【专利技术属性】
技术研发人员:黄毅罗梓文吴玲清杨玲易鑫
申请(专利权)人:北京吉因加科技有限公司北京吉因加医学检验实验室有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1