【技术实现步骤摘要】
检测指定基因组区域体细胞拷贝数变异的方法和装置
本专利技术涉及基因领域,特别是涉及一种检测指定基因组区域体细胞拷贝数变异的方法和装置。
技术介绍
拷贝数变异(CopyNumberVariations,CNV)是DNA序列结构变异的一种形式,包括特定DNA片段(>1kb)的复制和缺失,是人类基因组正常变异和致病变异的重要来源。二代测序(NGS)技术的发展大大提高了检测所有类型的基因组变异的能力,从单核苷酸变异和小插入缺失到CNV和其他形式的结构变异(SV)。利用全基因组测序数据检测CNV能力最强,但是由于其高昂的成本,大多检测CNV的工具和方法都是利用全外显子测序数据。然而,与全基因组测序(WGS)相比,全外显子测序(WES)引入了更多的偏差和噪声,使CNV检测非常具有挑战性。此外,肿瘤的复杂性使癌症特异性CNV的检测更加困难。Control-FREEC软件最终的输出结果将拷贝数取整,所以对肿瘤细胞比例不明确或者比例比较低的样本检测效果不佳,并且该算法无法检测到拷贝数在2.5以下的CNV。目前,CNV的计算都是来自于两种数据,log2(copyRatio)和B-AlleleFrequency(BAF)。log2(copyRatio)用于计算CNV片段,BAF则用于计算杂合体的缺失(Lossofheterozygosity,LOH)和等位基因的失衡(AllelicImbalance)。log2(copyRatio)值是通过对照样本和肿瘤样本读段深度计算。读段深度法是根据读段在染色体上的分布密 ...
【技术保护点】
1.一种检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,包括:/n获取已知指定基因组区域拷贝数变异情况的肿瘤样本,其配对样本作为对照样本;肿瘤样本和对照样本的测序数据分别与参考基因组比对得到比对结果文件;/n基于比对结果文件,在指定基因组区域的目标捕获区域或非目标捕获区域划窗口,分别计算肿瘤样本和对照样本在每个窗口内的均一化的读长覆盖度,然后计算肿瘤样本和对照样本的均一化的读长覆盖度的差异显著性P值,对应目标捕获区域得到差异显著性P1值,对应非目标捕获区域得到差异显著性P2值;/n基于肿瘤样本和对照样本在指定基因组区域的目标捕获区域的每个窗口内的均一化的读长覆盖度,计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的log
【技术特征摘要】
1.一种检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,包括:
获取已知指定基因组区域拷贝数变异情况的肿瘤样本,其配对样本作为对照样本;肿瘤样本和对照样本的测序数据分别与参考基因组比对得到比对结果文件;
基于比对结果文件,在指定基因组区域的目标捕获区域或非目标捕获区域划窗口,分别计算肿瘤样本和对照样本在每个窗口内的均一化的读长覆盖度,然后计算肿瘤样本和对照样本的均一化的读长覆盖度的差异显著性P值,对应目标捕获区域得到差异显著性P1值,对应非目标捕获区域得到差异显著性P2值;
基于肿瘤样本和对照样本在指定基因组区域的目标捕获区域的每个窗口内的均一化的读长覆盖度,计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的log2(copyRatio)值;
分别计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的B等位基因频率,然后计算肿瘤样本和对照样本在指定基因组区域的目标捕获区域的B等位基因频率的差异显著性P3值;
利用上述获得的log2(copyRatio)值、P1值、P2值、P3值以及已知指定基因组区域拷贝数变异情况构建机器学习模型,并得到判定阈值;或利用上述获得的log2(copyRatio)值、P1值、P3值以及已知指定基因组区域拷贝数变异情况构建机器学习模型,并得到判定阈值;
待检测肿瘤样本和配对样本按照上述步骤计算log2(copyRatio)值、P1值、P2值和P3值,或log2(copyRatio)值、P1值和P3值,通过机器学习模型分析,所得分析结果与所述判定阈值比较,确定待检测肿瘤样本在指定分析区域是否发生体细胞拷贝数变异。
2.根据权利要求1所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在计算均一化的读长覆盖度的差异显著性P值步骤中,分别选择T检验和KS检验计算差异显著性,对应目标捕获区域得到差异显著性P1T值和P1ks值,对应非目标捕获区域得到差异显著性P2t值和P2ks值。
3.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在指定基因组区域的目标捕获区域划窗口时,每一个窗口至少有200条读段;或在指定基因组区域的非目标捕获区域划窗口时,每一个窗口至少有200条读段。
4.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在计算B等位基因频率的差异显著性P3值的步骤中,分别选择T检验和KS检验计算差异显著性,得到B等位基因频率的差异显著性P3T值和P3KS值。
5.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,从已知数据库中获取突变频率≥0.05的胚系变异位点,备用,然后基于比对结果文件,筛选出测序深度≥10X,且对照样本中为杂合的备用的胚系变异位点作为BAF检查位点集合。
6.根据权利要求4或5所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,进行B等位基因频率的差异显著性分析时,肿瘤样本和对照样本在指定基因组区域内目标捕获区域的BAF检查位点至少为30个,当数量小于30时,通过将指定基因组区域向两边延伸进行补充,以得到目标数量的BAF检查位点。
7.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,在log2(copyRatio)值步骤中,对指定基因组区域的目标捕获区域划窗口,保证每一个窗口至少有200条读段,分别计算每个窗口的log2(copyRatio)值,然后对所有窗口的log2(copyRatio)值取中值。
8.根据权利要求1或2所述的检测指定基因组区域体细胞拷贝数变异的方法,其特征在于,所述机器学习模型选自梯度提升决策树、支持向量机、朴素贝叶斯、Adaboost算法、逻辑回归或随机森林。
9.根据权利要求1或2所...
【专利技术属性】
技术研发人员:黄毅,罗梓文,吴玲清,杨玲,易鑫,
申请(专利权)人:北京吉因加科技有限公司,北京吉因加医学检验实验室有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。