一种在WES数据中检测单样本SMN基因拷贝数的方法技术

技术编号：27529550 阅读：23 留言：0更新日期：2021-03-03 11:04

本发明专利技术公开了一种在WES数据中检测单样本SMN基因拷贝数的方法，通过预先使用已知SMN基因实际拷贝数的阴性样本和已知SMN基因实际拷贝数的阳性样本构建SMN1基因和SMN2基因拷贝数分值数据集来检测单个样本的基因拷贝数，通过在全外显子Bed区间内寻找与SMN基因拷贝数高相关性的对照区间；利用该区域的reads覆盖度校正不同样本间的批次效应，有效提升了检测方法的准确性，同时还可以检测出发生了g.27134T>G点突变的SMN1 2+0静默携带者。实现了精确检测单样本SMN基因拷贝数且检测出发生了g.27134T>G点突变的SMN1 2+0静默携带者的目的。目的。目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种在WES数据中检测单样本SMN基因拷贝数的方法

[0001]本专利技术涉及生物学与精准医学全基因组变异检测领域，尤其涉及一种WES(Whole Exome Sequence，全外显子组测序，简写为WES)数据中检测单样本SMN基因拷贝数的方法。

技术介绍

[0002]脊髓性肌肉萎缩症(英语：Spinal muscular atrophy，简写为SMA)，是一种遗传性神经疾病。它会造成运动神经元退化、肌肉萎缩，肌肉无力，最终造成死亡。SMA是由于人体内被称作为“运动神经元存活1号”基因(SMN1)的缺失或异常(突变)所导致的。SMA主要与两个高度同源(是指这两个基因的序列非常相似)的基因密切相关，即SMN1和SMN2(“运动神经元存活2号”基因)，这两个基因主要通过7号外显子和8号外显子上的两个基因位点进行区分。一般来说，大部分正常个体都有2份拷贝的SMN1基因与2份拷贝的SMN2基因，SMN2基因发生外显子7的跳跃，只有少量的全长SMN mRNA，所以如果某个人两份拷贝的SMN1基因都失去功能则一定会患病，只有一份SMN1基因起作用的个体为携带者。在SMN1基因都失去功能的情况下，SMN2基因拷贝数数目，则会影响患者的发病时间与疾病严重程度。
[0003]SMA基因检测的方法有以下几类：(1)PCR(Polymerase Chain Reaction，聚合酶链式反应)或一代测序，首先对目标区域进行扩增，然后通过限制性内切酶或一代测序的方法来区分，如果是患者，则在c.840位点缺失SMN1的C峰，只显示SM

【技术保护点】

【技术特征摘要】
1.一种在WES数据中检测单样本SMN基因拷贝数的方法，其特征在于：S1、收集不同批次WES数据的已知SMN基因实际拷贝数的阴性样本和已知SMN基因实际拷贝数的阳性样本，在全外显子Bed区间内寻找与SMN基因拷贝数高相关性的对照区间；S2、利用所述对照区间的resds覆盖度校正所述阴性样本和阳性样本间的批次效应，定义所述不同批次WES数据的已知SMN基因实际拷贝数的阴性样本和已知SMN基因实际拷贝数的阳性样本为所有样本，计算所述所有样本的SMN1基因的相应拷贝数时的P1值分布范围和SMN2基因的相应拷贝数时的P2值分布范围；统计所述所有样本中已经验证为是静默携带者的样本的7号内含子的g.27134T>G位点的校正后覆盖度P_silent值分布范围；S3、计算单个测试样本的SMN1基因的7号外显子和8号外显子的p1值、SMN2基因的7号外显子和8号外显子的p2值，根据S2中计算所得的P1值和P2值的分布范围判断本步骤中p1值和p2值所对应的SMN1基因和SMN2基因的拷贝数；统计单个测试样本的7号内含子上的g.27134T>G位点的覆盖度p_silent值；根据所述p_silent值和所述单个测试样本的SMN1基因的拷贝数，判断该单个测试样本静默携带者的状态：当p_silent值在S2中计算的P_silent值分布范围内且所述单个测试样本的SMN1基因的拷贝数是2时，判断所述单个测试样本为静默携带者；当p_silent值在S2中计算的P_silent值分布范围内但所述单个测试样本的SMN1基因的拷贝数不是2，判断所述单个测试样本为疑似静默携带者；其他情况时均判断所述单个测试样本为非静默携带者。2.如权利要求1所述的在WES数据中检测单样本SMN基因拷贝数的方法，其特征在于：所述S1中寻找所述对照区间的步骤包括：S101、用MLPA平台验证所述所有样本的SMN1基因和SMN2基因的实际拷贝数，使用生信分析流程进行处理后得到Bam文件；S102、预先筛选出两拷贝基因的Bed区间，统计所述所有样本在全外显子组的Bed区间内的覆盖度；S103、把所述所有样本的覆盖度校正到100X，得到样本校正后覆盖度；S104、根据所述所有样本校正后覆盖度计算相关性和方差，查找相关性好且方差值低的Bed区间作为对照区间。3.如权利要求2所述的在WES数据中检测单样本SMN基因拷贝数的方法，其特征在于：所述对照区间为相关性好且方差值低的前5个Bed区间。4.如权利要求3所述的在WES数据中检测单样本SMN基因拷贝数的方法，其特征在于：所述S2的步骤包括：S201、统计所述所有样本在SMN1基因和SMN2基因的7号外显子和8号外显子的总覆盖度并校正，得到SMN1基因和SMN2基因7号外显子和8号外显子的校正后总覆盖度；S202、统计所述所有样本在5个所述对照区间的总覆盖度并校正，得到对照区间的校正覆盖度均值；S203、统计所述所有样本的3个点突变的覆盖度并校正，得到3个点突变的校正后覆盖度；所述3个点突变的覆盖度包括7号外显子上的c.840C>T位点的覆盖度、8号外显子上的
c.*239G>A位点的覆盖度和7号内含子上的g.27134T>G位点的覆盖度；计算SMN1基因的校正后覆盖度在7号外显子、8号外显子的ratio值；计算SMN2基因的的校正后覆盖度在7号外显子、8号外显子的ratio值；S204、根据所述SMN1基因和SMN2基因的7号外显子和8号外显子的校正后总覆盖度、对照区间的校正覆盖度均值、所述ratio值，计算SMN1基因的7号外显子的拷贝数p_e7_s1值和8号外显子的拷贝数p_e8_s1值；计算SMN2基因的7号外显子的拷贝数p_e7_s2值和8号外显子的拷贝数p_e8_s2值；根据p_e7_s1值和p_e8_s1值计算p1值；根据p_e7_s2值和p_e8_s2值计算p2值；所述所有样本根据相应拷贝数统计的p1值的分布范围为P1，所述所有样本根据相应拷贝数统计的p2值的分布范围为P2。5.如权利要求4所述的在WES数据中检测单样本SMN基因拷贝数的方法，其特征在于：所述校正均采用对应的批次内中位数覆盖度进行校正。6.如权利要求5所述的在WES数据中检测单样本SMN基因拷贝数的方法，其特征在于：先计算所述所有样本中每个样本的p1值和p2值，再根据相应拷贝数统计所述所有样本的P1值和P2值；计算方法如下：SMN1基因在7号外显子上的ratio值和p_e7_s1值的计算公式为：ratio_e7_s1＝rc_e7_s1/(rc_e7_s1+rc_e7_s2)；cn_e7_s1＝rc_e7_s1_total/rc_control；cn_e7_s2＝rc_e7_s2_total/rc_control；p_e7_s1＝ratio_e7_s1*(cn_e7_s1+cn_e7_s2)*2；SMN1基因在8号外显子上的ratio值和p_e8_s1值的计算公式为：ratio_e8_s1＝rc_e8_s1/(rc_e8_s1+rc_e8_s2)；cn_e8_s1＝rc_e8_s1_total/rc_control；cn_e8_s2＝rc_e8_s2_total/rc_control；p_e8_s1＝ratio_e8_s1...

【专利技术属性】
技术研发人员：余伟师，梁萌萌，鲍远亮，栗海波，贺洪鑫，
申请(专利权)人：赛福解码北京基因科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人