【技术实现步骤摘要】
确定待测样本的SMN1基因是否存在七号外显子缺失的方法和系统
本专利技术涉及生物信息领域,具体地,本专利技术涉及确定待测样本的SMN1基因是否存在七号外显子缺失的方法和系统。
技术介绍
脊髓性肌萎缩症(SMA)是一种常染色体隐性遗传疾病,为一组可起病于婴儿期,儿童期或青少年期的疾病,其特征是由脊髓前角细胞与脑干内运动核进行性变性引起的骨骼肌萎缩,患者智力不受影响。临床主要表现为下运动神经元进行性对称性肌无力和肌萎缩,近端重于远端,下肢重于上肢。该病发病为1/6000~1/10000,居致死性常染色体隐性遗传病第二位,目前尚无有效治疗方法。在中国的携带率为1/62,在世界范围内携带率1/30~1/40。两个高度同源运动神经元存活基因:SMN1基因和SMN2基因,被认为与脊髓型肌肉萎缩症相关,这两个基因相似性高达99%。其中SMN1基因是其功能的主要决定者,其同源性缺失或突变引起脊髓型肌肉萎缩症,而SMN2基因的拷贝数与发病的严重程度相关。SMN1基因含有9个外显子(exon1,2a,2b,and3-8),编码2 ...
【技术保护点】
1.一种确定待测样本的SMN1基因是否存在七号外显子缺失的方法,其特征在于,包括:/n(1)对来自于总样本集的多个核酸样本分别进行测序,所述总样本集包括待测试样本和至少一个控制样本,所述多个核酸样本均含有SMN编码基因和至少一个控制基因,所述SMN编码基因包括:/nSMN1七号外显子编码序列;/nSMN2七号外显子编码序列;/nSMN1七号外显子左侧和右侧毗邻区编码序列;和/nSMN2七号外显子左侧和右侧毗邻区编码序列/n(2)针对所述总样本集中的每一个样本,基于步骤(1)的测序结果,选择来源于所述SMN编码基因和所述至少一个控制基因的测序读段;/n(3)针对所述待测试样本 ...
【技术特征摘要】
1.一种确定待测样本的SMN1基因是否存在七号外显子缺失的方法,其特征在于,包括:
(1)对来自于总样本集的多个核酸样本分别进行测序,所述总样本集包括待测试样本和至少一个控制样本,所述多个核酸样本均含有SMN编码基因和至少一个控制基因,所述SMN编码基因包括:
SMN1七号外显子编码序列;
SMN2七号外显子编码序列;
SMN1七号外显子左侧和右侧毗邻区编码序列;和
SMN2七号外显子左侧和右侧毗邻区编码序列
(2)针对所述总样本集中的每一个样本,基于步骤(1)的测序结果,选择来源于所述SMN编码基因和所述至少一个控制基因的测序读段;
(3)针对所述待测试样本,确定SMN1七号外显子参数,所述SMN1七号外显子参数与来源于所述SMN1七号外显子编码序列的测序读段数目呈正相关;
(4)针对所述待测试样本,基于所述至少一个控制样本中所述至少一个控制基因的测序读段,对所述SMN1七号外显子参数进行矫正;
(5)基于经过矫正的所述SMN1七号外显子参数,预测来源于所述SMN编码基因的测序读段归属于SMN1七号外显子编码序列的概率;以及
(6)基于所述概率,确定所述待测样本的SMN1基因是否存在七号外显子缺失。
2.根据权利要求1所述的方法,其特征在于,
所述SMN1七号外显子编码序列包含第一突变位点,所述第一突变位点位于chr5:70247773,
所述SMN1七号外显子左侧毗邻区编码序列包括第二突变位点,所述第二突变位于chr5:70247724;
所述SMN1七号外显子右侧毗邻区编码序列包括第三突变位点,所述第三突变位于chr5:70247921;
所述SMN2七号外显子编码序列包含第四突变位点,所述第四突变位点位于chr5:69372353;
所述SMN2七号外显子左侧毗邻区编码序列包括第五突变位点,所述第五突变位于chr5:69372304;以及
所述SMN2七号外显子右侧毗邻区编码序列包括第六突变位点,所述第六突变位于chr5:69372501。
3.根据权利要求2所述的方法,其特征在于,在步骤(3)中,针对所述待测样本,所述SMN1七号外显子参数是通过下列步骤确定的:
(3-1)基于所述待测样本的测序结果,分别确定携带所述第一至第六突变位点的所述测序读段的数目;
(3-2)基于步骤(3-1)中所得到的所述第一至第六突变位点的所述测序读段的数目,确定第一至第三比例,其中,
所述第一比例y=B/b,其中,B表示携带所述第一突变位点的所述测序读段的数目,b表示来自于携带所述第一或第四突变位点的所述测序读段的数目,
所述第二比例x=A/a,其中,A表示携带所述第二突变位点的所述测序读段的数目,a表示来自于携带所述第二或第五突变位点的所述测序读段的数目,和
所述第三比例x=M/m,其中,M表示携带所述第三突变位点的所述测序读段的数目,m表示来自于携带所述第三或第六突变位点的所述测序读段的数目;
(3-3)基于所述第一至第三比例,按照下列公式,确定参数R和r,其中,R构成所述SMN1七号外显子参数:
当所述第一比例与所述第二比例的差异绝对值以及所述第一比例和所述第三比例的差异绝对值至少之一超过0.1时,R=B,r=b;
当所述第一比例与所述第二比例的差异绝对值以及所述第一比例和所述第三比例的差异绝对值均不超过0.1时,R=A+B+M,r=a+b+m。
4.根据权利要求3所述的方法,其特征在于,进一步包括:
(3-4)基于所述参数r,确定所述待测样本是否合格。
5.根据权利要求4所述的方法,其特征在于,所述参数r小于200,是所述待测样本不合格的指示。
6.根据权利要求3所述的方法,其特征在于,进一步包括:
(3-5a)基于所述参数R和r,确定第四比例q,其中所述第四比例q=R/r;
(3-5b)判断所述控制样本是否合格,其中,所述第四比例q在0.43~0.57范围内是所述控制样本合格的指示;或者
基于所述第四比例q在0.43~0.57范围内,初步确定所述待测样本的SMN1基因不存在七号外显子缺失。
7.根据权利要求1或6所述的方法,其特征在于,所述至少一个控制基因是通过下列步骤确定的:
(a)基于所述至少一个控制样本的测序结果,选择多个候选基因,所述多个候选基因在至少一部分所述控制样本中的测序深度高于预定阈值;
(b)针对所述多个候选基因的每一个,分别在所述至少一个控制样本的每一个中,计算第五比例zk,i=si/Hk,i,其中,k表示候选基因编号,i表示所述样本的编号,si表示第i号样本中SMN基因的测序深度,Hk,j表示在所述第i号样本中第k号候选基因的测序深度;以及
(c)基于所述第五比例,确定所述至少一个控制基因。
8.根据权利要求7所述的方法,其特征在于,在步骤(c)中,所述控制基因满足下列标准的至少之一:
(c-1)在所述至少一个控制样本之间,所述控制基因的测序深度的变异系数是最小的前10位;和
(c-2)在所述至少一个控制样本之间,所述第五比例的变异系数是最小的前10位。
9.根据权利要求7所述的方法,其特征在于,所述预定阈值是通过如下方式确定的:
基于所述至少一个控制样本的测序结果,所述样本全部基因的至少一部分的测序深度按照从小到大的顺序进行排列;以及
基于所述排列结果,确定所述预定阈值,所述阈值为不小于处于5%位置的基因所对应的测序深度;
任选地,所述阈值为处于5%位置的基因所对应的测序深度。
10.根据权利要求9所述的方法,其特征在于,
在所述至少一个控制样本的至少90%中,所述候选基因的测序深度大于所述预定阈值。
11.根据权利要求7所述的方法,其特征在于,在步骤(4)中,所述矫正是通过所述SMN1七号外显子参数乘以矫正系数进行的,其中,所述矫正系数是通过下列公式确定的:
其中,Zk表示在所述待测样本中SMN基因的测序深度与所述第k编号基因的测序深度的比例,
K表示所述控制基因集中的所述控制基因的总数目,
表示第k编号基因在所述控制样本集中所述第五比例的平均值。
12.根据权利要求11所述的方法,其特征在于,是通过下列公式确定的:
N表示控制样本基因中样本的总数,i表示样本编号,k表示基因编号。
13.根据权利要求11所述的方法,其特征在于,当通过公式计算的数值超过1.5时,将所述矫正系数选择为1.5。
14.根据权利要求1所述的方法,其特征在于,在步骤(5)中,经过矫正的SMN1的七号外显子参数所对应的七号外显子编码序列的测序读段数服从二项分布,应用贝叶斯模型计算来源于所述SMN编码基因的测序读段归属于SMN1七号外显子编码序列的概率pi。
15.根据权利要求14所述的方法,其特征在于,在步骤(6)中,基于所述pi的95%置信区间[a’,b’],确定所述待测样本的SMN1基因是否存在七号外显子缺失,
其中,a’>0.38是所述待测样本的SMN1基因不存在七号外显子缺失的指示,
b’<0.38,是所述待测样本的SMN1基因存在七号外显子缺失的指示;
a’<=0.38且0.38<=b’,是无法判断待测样本是否存在七号外显子缺失。
16.根据权利要求15所述的方法,其特征在于,所述待测样本的SMN1基因存在七号外显子缺失,进一步包括通过公式确定所述待测样本中SMN1基因的拷贝数,通过公式确定所述待测样本中SMN2基因的拷贝数,
其中,c1,i或c2,i不大于0.1,是SMN1基因或SMN2基因拷贝数是0的指示,
c1,i或c2,i大于0.1但小于0.5,是SMN1基因或SMN2基因拷贝数在0~1之间的指示,
c1,i或c2,i不小于0.5但小于1.485,是SMN1基因或SMN2基因拷贝数是1的指示,
c1,i或c2,i不小于1.485但小于2.324,是SMN1基因或SMN2基因拷贝数是2的指示,
c1,i或c2,i不小于2.324但小于2.743,是SMN1基因或SMN2基因拷贝数在2~3之间的指示,
c1,i或c2,i不小于2.743,是SMN1基因或SMN2基因拷贝数不低于3的指示。
17.根据权利要求16所述的方法,其特征在于,
SMN1基因拷贝数是0是SMN1基因7号外显子纯合缺失的指示;
SMN1基因拷贝数不小于1是SMN1基因7号外显子杂合缺失的指示;
SMN1基因拷贝数在0~1之间是SMN1基因7号外显子灰区缺失的指示。
18.一种确定待测样本的SMN1基因是否存在七号外显子缺失的系统,其特征在于,包括:
测序装置,所述测序装置用于对来自于总样本集的多个核酸样本分别进行测序,所述总样本集包括待测试样本和至少一个控制样本,所述多个核酸样本均含有SMN编码基因和至少一个控制基因,所述SMN编码基因包括:
SMN1七号外显子编码序列;
...
【专利技术属性】
技术研发人员:郭凤禹,宋立洁,孙隽,王亚玲,范林林,彭智宇,
申请(专利权)人:天津华大医学检验所有限公司,广州华大基因医学检验所有限公司,深圳华大基因股份有限公司,深圳华大临床检验中心,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。