一种基于NGS平台的基因大片段重排检测方法技术

技术编号:27836001 阅读:25 留言:0更新日期:2021-03-30 12:01
本发明专利技术涉及一种基于NGS平台的基因大片段重排检测方法,具体通过比较样本与阴性样本在目标区域的测序深度的差异来确定基因大片段重排的区域。提高了检测分辨率和灵敏度,有效的解决了NGS中常规的CNV检测方法分辨率低无法检测LGR的问题。法检测LGR的问题。

【技术实现步骤摘要】
一种基于NGS平台的基因大片段重排检测方法


[0001]本申请涉及生信分析领域,具体涉及一种基于NGS平台的基因大片段重排检测方法。
技术背景
[0002]基因的大片段重排(Large Genomic Rearrangements,LGR)指一个或多个外显子的重复或缺失。重排类型大部分为缺失,也存在二倍、三倍重复等,这些变异往往引起读码框偏移,导致蛋白结构与功能的异常。
[0003]常见的致病性变异多为单碱基变异(Single Nucleotide Variation,SNV)或短片段插入缺失(Small Insertion and Deletion,INDEL)引起的移码突变和无义突变,这些变异类型可以在下一代测序(Next Generation Sequencing,NGS)中稳定检测。此外,LGR也是一种重要的致病性变异类型,很多研究表明其在肿瘤以及遗传疾病领域具有重要的临床价值。例如,BRCA基因致病性变异使女性发生乳腺癌的风险提高5倍,发生卵巢癌的风险提高10~30倍。且BRCA基因的LGR致病性变异的发生频率较高,在乳腺癌高风险人群中的检出频率为2.4%,占所有BRCA致病性变异的9.9%,在普通人群中的检出频率为0.5%,占所有BRCA致病性变异的5.9%。在临床上,携带BRCA基因致病性变异的乳腺癌和卵巢癌患者在接受铂类治疗中获益,具有更好的总生存率(Overall Survival,OS)、无进展生存率(Progressive

Free Survival,PFS)和总缓解率(Overall Response Rate,ORR)。以上研究显示,当常规的NGS检测结果(SNV,INDEL)为阴性时,还应进行LGR的检测,防止出现致病性的LGR漏检问题,以便制定相应的遗传管理措施和治疗方案。然而,目前常规的NGS检测方法由于分辨率较低尚不足以检测LGR,因此开发一种基于NGS技术的LGR检测方法具有重要意义。
[0004]多重链接依赖探针扩增技术(Multiplex Ligation

dependent Probe Amplification,MLPA)是最常用的检测LGR的方法,也是目前LGR检测的金标准。其基本原理是DNA片段PCR扩增,并通过毛细管电泳进行分离和定量,通过将样品的峰图与正常(阴性)样本的峰图进行比较,确定样本中是否存在LGR。MLPA是一种高通量、廉价的检测LGR的方法。但其存在一些缺陷:(1)实验样本存在污染会降低检测的灵敏度;(2)无法检测单细胞水平的异常;(3)无法检测未知的点突变;(4)探针杂交区域附近存在单核苷酸多态性位点(Single Nucleotide Polymorphism,SNP)时,会影响探针的连接效率,进一步影响检测结果。
[0005]拷贝数变异(Copy Number Variation,CNV)一般指长度1Kbp以上的基因组大片段的重复或缺失。LGR与CNV在定义上相似,二者的区别在于检测分辨率不同。CNV检测主要关注基因组的大片段的重复或缺失,其最小单位为基因;而LGR检测关注单个基因在外显子水平的重复或缺失,其最小单位为基因的外显子。与CNV相比,LGR的分辨率更高。在NGS中,常规的CNV检测方法由于分辨率较低,无法适用于LGR的检测。因此,亟需开发了一种基于NGS技术的LGR检测方法,用于检测肿瘤样本中发生的LGR。
[0006]有鉴于此,提出本专利技术。

技术实现思路

[0007]本申请的第一目的在于提供一种基因大片段重排检测的数据处理方法,用于解决目前NGS检测方法分辨率低无法检测LGR的问题。
[0008]为实现上述目的,本申请采用的技术方案如下:
[0009]本申请提供一种基因大片段重排检测的数据处理方法,其特征在于,所述方法包括如下步骤:
[0010]步骤1)将目标区域(Bed)划分成区间(Bin);
[0011]步骤2)所有区间测序深度数据预处理,包括标准化处理、误差校正;
[0012]步骤3)计算测序深度数据中位值(log2)和中位偏差(spread);
[0013]步骤4)计算待测样本与阴性样本的测序深度比值(logratio_bin)及权重(weight);
[0014]步骤5)确定基因重复/缺失区域:基于区间logratio,采用循环二元分割方法确定断点;并计算区域拷贝数(cn):
[0015][0016]cn=2
logratio_region
×2[0017]若断点区域cn≥2.5,则确定为重复区域;若断点区域cn≤1.5,则确定为缺失区域。
[0018]在另一优选例中,所述步骤1)中,区间Bin的取值范围为100~200bp。
[0019]在另一优选例中,所述步骤3)中,中位值(log2)、中位偏差(spread)可采用双权中位值(biweight_location)、双权中位偏差(biweight_midvariance):
[0020][0021][0022][0023]x
i
为某个区间的测序深度值。
[0024]在另一优选例中,所述步骤4)中:
[0025]logratio_bin=log2
待测样本

log2
阴性样本
[0026][0027]log2
阴性样本
为若干阴性样本数据按照步骤1)、2)、3)计算所得。
[0028]在另一优选例中,所述步骤5)中,循环二元分割方法为对目标区域所有区间的测序深度比值以位置从小到大排序,计算最大T统计量,若T统计量对应的P值在统计学上显
著,则为断点;优选的,所述最大T统计量的方法为:
[0029][0030][0031][0032][0033][0034]在另一优选例中,所述步骤2)中,标准化处理步骤为,所有区间测序深度数据进行以2为底的对数转换,统计中位值,并将每个转换后数据减去中位值;优选的,所述步骤2)中,误差校正包括消除GC占比、序列重复、区域密度其中任一或组合。
[0035]在另一优选例中,所述方法还包括:
[0036]步骤6)注释基因外显子,确定重复/缺失区域所在基因或者外显子。
[0037]本申请还提供一种计算机装置/设备/系统,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述任一所述方法的步骤。
[0038]本申请还提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述任一所述方法的步骤。
[0039]本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述任一所述方法的步骤。
[0040]相比于现有技术,本申请的有益效果在于:
[0041]1)本专利技术方法有效的解决了MLPA方法中无法检测未知突变的缺陷,可对NGS本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因大片段重排检测的数据处理方法,其特征在于,所述方法包括如下步骤:步骤1)将目标区域(Bed)划分成区间(Bin);步骤2)所有区间测序深度数据预处理,包括标准化处理、误差校正;步骤3)计算测序深度数据中位值(log2)和中位偏差(spread);步骤4)计算待测样本与阴性样本的测序深度比值(logratio_bin)及权重(weight);步骤5)确定基因重复/缺失区域:基于区间logratio,采用循环二元分割方法确定断点,并计算区域拷贝数(cn):cn=2
logratio_region
×
2若断点区域cn≥2.5,则确定为重复区域;若断点区域cn≤1.5,则确定为缺失区域。2.权利要求1所述方法,其特征在于,所述步骤1)中,区间Bin的取值范围为100~200bp。3.权利要求1

2任一所述方法,其特征在于,所述步骤3)中,中位值(log2)、中位偏差(spread)可采用双权中位值(biweight_location)、双权中位偏差(biweight_midvariance):midvariance):midvariance):x
i
为某个区间的测序深度值。4.权利要求1

3任一所述方法,其特征在于,所述步骤4)中:logratio_bin=log2
待测样本

log2
阴性样本
log2
阴性样本
...

【专利技术属性】
技术研发人员:杨元邓望龙叶雷陆光华丁然卜范峰李诗濛任用
申请(专利权)人:江苏先声医疗器械有限公司江苏先声诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1