【技术实现步骤摘要】
一种在WES数据中检测单样本SMN基因拷贝数的方法
[0001]本专利技术涉及生物学与精准医学全基因组变异检测领域,尤其涉及一种WES(Whole Exome Sequence,全外显子组测序,简写为WES)数据中检测单样本SMN基因拷贝数的方法。
技术介绍
[0002]脊髓性肌肉萎缩症(英语:Spinal muscular atrophy,简写为SMA),是一种遗传性神经疾病。它会造成运动神经元退化、肌肉萎缩,肌肉无力,最终造成死亡。SMA是由于人体内被称作为“运动神经元存活1号”基因(SMN1)的缺失或异常(突变)所导致的。SMA主要与两个高度同源(是指这两个基因的序列非常相似)的基因密切相关,即SMN1和SMN2(“运动神经元存活2号”基因),这两个基因主要通过7号外显子和8号外显子上的两个基因位点进行区分。一般来说,大部分正常个体都有2份拷贝的SMN1基因与2份拷贝的SMN2基因,SMN2基因发生外显子7的跳跃,只有少量的全长SMN mRNA,所以如果某个人两份拷贝的SMN1基因都失去功能则一定会患病,只有一份SMN1基因起作用的个体为携带者。在SMN1基因都失去功能的情况下,SMN2基因拷贝数数目,则会影响患者的发病时间与疾病严重程度。
[0003]SMA基因检测的方法有以下几类:(1)PCR(Polymerase Chain Reaction,聚合酶链式反应)或一代测序,首先对目标区域进行扩增,然后通过限制性内切酶或一代测序的方法来区分,如果是患者,则在c.840位点缺失SMN1的C峰,只显示SM
【技术保护点】
【技术特征摘要】
1.一种在WES数据中检测单样本SMN基因拷贝数的方法,其特征在于:S1、收集不同批次WES数据的已知SMN基因实际拷贝数的阴性样本和已知SMN基因实际拷贝数的阳性样本,在全外显子Bed区间内寻找与SMN基因拷贝数高相关性的对照区间;S2、利用所述对照区间的resds覆盖度校正所述阴性样本和阳性样本间的批次效应,定义所述不同批次WES数据的已知SMN基因实际拷贝数的阴性样本和已知SMN基因实际拷贝数的阳性样本为所有样本,计算所述所有样本的SMN1基因的相应拷贝数时的P1值分布范围和SMN2基因的相应拷贝数时的P2值分布范围;统计所述所有样本中已经验证为是静默携带者的样本的7号内含子的g.27134T>G位点的校正后覆盖度P_silent值分布范围;S3、计算单个测试样本的SMN1基因的7号外显子和8号外显子的p1值、SMN2基因的7号外显子和8号外显子的p2值,根据S2中计算所得的P1值和P2值的分布范围判断本步骤中p1值和p2值所对应的SMN1基因和SMN2基因的拷贝数;统计单个测试样本的7号内含子上的g.27134T>G位点的覆盖度p_silent值;根据所述p_silent值和所述单个测试样本的SMN1基因的拷贝数,判断该单个测试样本静默携带者的状态:当p_silent值在S2中计算的P_silent值分布范围内且所述单个测试样本的SMN1基因的拷贝数是2时,判断所述单个测试样本为静默携带者;当p_silent值在S2中计算的P_silent值分布范围内但所述单个测试样本的SMN1基因的拷贝数不是2,判断所述单个测试样本为疑似静默携带者;其他情况时均判断所述单个测试样本为非静默携带者。2.如权利要求1所述的在WES数据中检测单样本SMN基因拷贝数的方法,其特征在于:所述S1中寻找所述对照区间的步骤包括:S101、用MLPA平台验证所述所有样本的SMN1基因和SMN2基因的实际拷贝数,使用生信分析流程进行处理后得到Bam文件;S102、预先筛选出两拷贝基因的Bed区间,统计所述所有样本在全外显子组的Bed区间内的覆盖度;S103、把所述所有样本的覆盖度校正到100X,得到样本校正后覆盖度;S104、根据所述所有样本校正后覆盖度计算相关性和方差,查找相关性好且方差值低的Bed区间作为对照区间。3.如权利要求2所述的在WES数据中检测单样本SMN基因拷贝数的方法,其特征在于:所述对照区间为相关性好且方差值低的前5个Bed区间。4.如权利要求3所述的在WES数据中检测单样本SMN基因拷贝数的方法,其特征在于:所述S2的步骤包括:S201、统计所述所有样本在SMN1基因和SMN2基因的7号外显子和8号外显子的总覆盖度并校正,得到SMN1基因和SMN2基因7号外显子和8号外显子的校正后总覆盖度;S202、统计所述所有样本在5个所述对照区间的总覆盖度并校正,得到对照区间的校正覆盖度均值;S203、统计所述所有样本的3个点突变的覆盖度并校正,得到3个点突变的校正后覆盖度;所述3个点突变的覆盖度包括7号外显子上的c.840C>T位点的覆盖度、8号外显子上的
c.*239G>A位点的覆盖度和7号内含子上的g.27134T>G位点的覆盖度;计算SMN1基因的校正后覆盖度在7号外显子、8号外显子的ratio值;计算SMN2基因的的校正后覆盖度在7号外显子、8号外显子的ratio值;S204、根据所述SMN1基因和SMN2基因的7号外显子和8号外显子的校正后总覆盖度、对照区间的校正覆盖度均值、所述ratio值,计算SMN1基因的7号外显子的拷贝数p_e7_s1值和8号外显子的拷贝数p_e8_s1值;计算SMN2基因的7号外显子的拷贝数p_e7_s2值和8号外显子的拷贝数p_e8_s2值;根据p_e7_s1值和p_e8_s1值计算p1值;根据p_e7_s2值和p_e8_s2值计算p2值;所述所有样本根据相应拷贝数统计的p1值的分布范围为P1,所述所有样本根据相应拷贝数统计的p2值的分布范围为P2。5.如权利要求4所述的在WES数据中检测单样本SMN基因拷贝数的方法,其特征在于:所述校正均采用对应的批次内中位数覆盖度进行校正。6.如权利要求5所述的在WES数据中检测单样本SMN基因拷贝数的方法,其特征在于:先计算所述所有样本中每个样本的p1值和p2值,再根据相应拷贝数统计所述所有样本的P1值和P2值;计算方法如下:SMN1基因在7号外显子上的ratio值和p_e7_s1值的计算公式为:ratio_e7_s1=rc_e7_s1/(rc_e7_s1+rc_e7_s2);cn_e7_s1=rc_e7_s1_total/rc_control;cn_e7_s2=rc_e7_s2_total/rc_control;p_e7_s1=ratio_e7_s1*(cn_e7_s1+cn_e7_s2)*2;SMN1基因在8号外显子上的ratio值和p_e8_s1值的计算公式为:ratio_e8_s1=rc_e8_s1/(rc_e8_s1+rc_e8_s2);cn_e8_s1=rc_e8_s1_total/rc_control;cn_e8_s2=rc_e8_s2_total/rc_control;p_e8_s1=ratio_e8_s1...
【专利技术属性】
技术研发人员:余伟师,梁萌萌,鲍远亮,栗海波,贺洪鑫,
申请(专利权)人:赛福解码北京基因科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。