当前位置: 首页 > 专利查询>郝柯专利>正文

基因组拷贝数变异的检测方法和系统技术方案

技术编号:16700958 阅读:125 留言:0更新日期:2017-12-02 13:23
本发明专利技术提供了用于对受测者基因组中的拷贝数变异进行分析的方法。本发明专利技术的方法创新性地对从测序数据中提取的变量进行数学变换,导出新的二维变量,即测序深度比SDR和交替等位基因频率AAF或者交替等位单倍体频率AHF,进一步提高了信号/噪音比,提高了检测灵敏度和精度,更充分地利用了高通量DNA测序数据所包含的信息。另外,本发明专利技术的方法用于处理受测者体液样品中游离DNA,从测序数据中提取基因组某位点的CNV的特征信号时引入临近位点的信息,极大的提高了信号强度,可以有效地检测尿液或血清中游离DNA中的拷贝数变异。本发明专利技术还提供了用于实现上述方法的系统。

Detection method and system of genome copy number variation

The present invention provides a method for analyzing the copy number variation in the genome of the recipient. The method of the invention of innovative mathematical transformation of the data extracted from the sequencing variables in two-dimensional new variables, namely the sequencing depth ratio SDR and the alternate allele frequency of AAF allele frequency of haploid AHF or alternatively, to further improve the signal / noise ratio, improves the detection sensitivity and accuracy, more fully use the included high-throughput DNA sequencing data information. In addition, the invention relates to a method for processing the free DNA humoral samples, using the adjacent site information signal feature extraction of CNV from a genomic locus sequencing data, which greatly improves the signal strength, can effectively detect the free copy number variation of DNA in urine or serum. The invention also provides a system for implementing the above methods.

【技术实现步骤摘要】
基因组拷贝数变异的检测方法和系统
本专利技术涉及基因组研究和疾病诊断治疗领域。具体的,本专利技术提供了一种用于对受测者(例如哺乳动物,特别是人)样品基因组中的拷贝数变异进行分析的方法和相关系统。
技术介绍
基因组异常通常与各种遗传疾病、退行性疾病以及癌症关联。例如,癌症中基因拷贝的缺失或增加与基因片段或特定区域的缺失或扩增屡见不鲜。因此肿瘤发生的研究与研发更好的诊断与预后方法都对关联癌症和各种遗传疾病的特定基因区域的鉴定与克隆感兴趣。癌症的核心特征是基因组的体突变(somaticmutation),这些突变可以是点突变、染色体结构突变或者是染色体区段的拷贝数突变(copynumbervariation)。癌症细胞凋亡后,其含有变异的DNA分子,也会被释放到血液中和尿液中。于是,通过检测血液或者尿液中的DNA分子,就可以探知是否有带有变异的DNA存在,从而诊断癌症。癌症的早期诊断,是治愈或者控制癌症的关键。目前很多癌症(比如肝癌)并没有灵敏的早期诊断手段;或者,诊断手段费用较高(比如PET-CT);或者,诊断手段有一定的副作用(比如PET-CT导致受试者接受一定剂量的辐射);或者,诊断手段仅仅在大型医疗机构才能实施(比如PET-CT检测需要受试者亲自前往大型医院);或者,检测结果不能给予确定性的诊断(比如PET-CT或B超的成像,即使有经验的医生也不能给予确定性的诊断定论)。检测样品(例如体细胞、血液或者尿液)的核酸的方法在近年有很大的发展,已发展出对核酸的高通量测序方法,能够获得大量病人或同一病人的大量的和完整的基因组信息。这种方法需要分析600亿或更多的序列数据点以提供一个精确的基因组序列。在诊断性基因组测序中,临床诊断的精确度要求进一步地加剧了序列分析的计算复杂性。早期的测序方法中通过从数以千计的孤立的、非常长的DNA片段中产生序列数据,从而保留序列信息的语境完整性并且减少精确数据所需的冗余测试来处理这一复杂性。拷贝数变异(copy-numbervariant,CNV)是指在人类基因组中存在的大量核酸片段多态,包括片段的插入、缺失、重复等。这种多态也被称为拷贝数多态(copy-numberpolymorphism,CNP)。CNV发生的频率高于染色体结构变异,而且在整个基因组中覆盖的核苷酸总数超过单核苷酸多态性(singlenucleotidepolymorphism,SNP)的总数。CNV可能和表型变异紧密关联,同时在物种的演化和发展中发挥着重要作用。现在已研发了一些检测DNA序列中拷贝数变异的方法。但这些方法中还存在所用的数据相对地易于出错,具有人为偏差等问题。因此,本领域还需要一种更准确、更全面地检测受测者的DNA序列中拷贝数变异的方法。
技术实现思路
本专利技术针对以上问题,提供了一种新的更准确的对基因组核酸序列中拷贝数变异(CNV)进行检测和分析的方法,对从测序数据中提取的变量进行数学变换,导出新的二维变量,即LSDR和AAF(或者AHF),进一步提高了信号/噪音比,提高了检测灵敏度和精度,更充分地利用了高通量DNA测序数据所包含的信息。另外,本专利技术的方法在处理体液中游离DNA样品中从测序数据中提取基因组某位点的CNV的特征信号时,引入临近位点的信息,极大的提高了信号强度,可以有效地检测尿液或血清在游离DNA中的CNV。本专利技术还提供了用于实现上述方法的系统。在本专利技术的其中一个方面,提供了一种用于对受测者(例如哺乳动物,特别是人)样品基因组中的拷贝数变异进行分析的方法,所述方法适合用于检测待测者或患者的各种组织的细胞,包括上皮细胞、血液中的正常白细胞等,所述方法包括以下步骤:(a)采集参考样本(其中参考样本数量为N,N>50,优选N>100。样本数越大越好),对其核酸进行测序,在M个单核苷酸多态性(SNP)位点上检测每个样本的基因型(genotype),对于每一个SNP位点,参考等位基因(referenceallele)记为A,交替等位基因(alternativeallele)记为B,三种基因型为AA、AB和BB;对第i个SNP(i为1,2,3,…,M),获得其参考等位基因和交替等位基因的测序深度diA和diB,计算得到这个SNP位点的测序深度di,其中di=diA+diB,其交替等位基因B占测序深度的比值为θi=diB/(diA+diB),θi∈[0,1];当θi靠近0、0.5和1时对应AA、AB和BB基因型;以d为横坐标,θ为纵坐标做图,所述N个样本的每个SNP的di和θi值在图上形成相对于AA、AB和BB基因型的三个点簇,算出三个点簇的中心位置的Dg和Θg值,其中Dg和Θg值可为点簇上所有点的di或θi的平均值或中位数值;(b)通过线性插值法计算待测样本的每一个SNP在个体的正常状态(在哺乳动物,例如人,中,正常状态即基因拷贝数为2,基因型为AA,AB,BB型)下的测序深度d的期望值de;(c)对待测样本的核酸进行测序,获得其每个SNP测序深度;(d)计算得到待测样本的每个SNP位点的测序深度比(SequencingDepthRatio,SDR),其对数形式为LSDR;以及计算得到交替等位基因频率(AlternativeAlleleFrequency,AAF),其中SDR=d/de;LSDR=log2(d/de);以及(e)采用隐马尔可夫模型分析上述步骤得到的数据,检查目标基因组的拷贝数变异状况。在本专利技术的其中一个方面,所述隐马尔可夫模型分析包括以下步骤:在M个SNP位点的AAF和LSDR值记为xi和yi(i=1,...,M),构成隐马尔可夫模型的显层(observationlayer);记M个SNP位点的拷贝数变异CNV状态为zi(i=1,...,M),构成隐马尔可夫模型的隐层(hiddenlayer),其中每个zi有6个可能的状态(如以下表1所示):表1从隐层到显层的发射概率为:p(xi,yi|zi)=p(xi|zi)p(yi|zi)。对应AAF的发射概率为:其中b(g;G(z)-1,pB)为二项分布(binomialdistribution)的概率密度函数(probabilitydensityfunction):φ(x;μ,σ)为正态分布(normaldistribution)概率密度函数:其中G(z)为该SNP位点CNV状态z对应的基因型数(即基因型可能的取值个数),对应的基因型如上表所示;g=0,…,G(z)-1,为这G(z)个基因型中B等位基因的个数;当g=0或g=G(z),即CNV基因型为纯合基因型时,对应的正太概率密度函数替换成以0或1为边界的截断(truncated)正态分布概率密度函数;pB为受测者所属基因种群的群体B等位基因频率(populationfrequencyofBallele);μx,z,g为不同CNV状态基因型对应的AAF均值,按如下公式计算初始值:σx,z,g为不同CNV状态基因型对应的AAF标准差,初始值通过待测样本的数据估计。对应LSDR的发射概率为:其中φ(y;μ,σ)为正太分布概率密度函数,参数μy,z和σy,z为不同CNV状态对应的LSDR均值和标准差;μy,z的初始值用如下公式计算:其中C(z)为不同CNV状态对应的总拷贝数(本文档来自技高网
...
基因组拷贝数变异的检测方法和系统

【技术保护点】
一种用于对受测者(例如哺乳动物,特别是人)样品基因组中的拷贝数变异进行分析的方法,所述方法包括以下步骤:(a)采集参考样本,对其核酸进行测序,在其SNP位点上检测每个样本的基因型,对于每一个SNP位点,参考等位基因记为A,交替等位基因记为B,三种基因型为AA、AB和BB,获得SNP位点上的参考等位基因和交替等位基因的测序深度dA和dB,计算得到这个SNP位点的测序深度d,其中d=dA+dB,记其交替等位基因B占这个SNP位点的测序深度的比值为θ,即θ=dB/(dA+dB),θ∈[0,1];参考样本的个数设为N,检测的SNP位点个数设为M,对第i个SNP(i为1,2,3,…,M),获得其参考等位基因和交替等位基因的测序深度diA和diB,计算得到这个SNP位点的测序深度di,其中di=diA+diB,其交替等位基因B占测序深度的比值为θi=diB/(diA+diB),θi∈[0,1];当θi靠近0、0.5和1时对应AA、AB和BB基因型;以d为横坐标,θ为纵坐标做图,所述N个样本的每个SNP的di和θi值在图上形成相对于AA、AB和BB基因型的三个点簇,算出三个点簇的中心位置的Dg和Θg值,其中Dg和Θg值可为点簇上所有点的di或θi的平均值或中位数值:Dg=median(dj,j∈{i:gi=g}),g=AA,AB,BB;Θg=median(θj,j∈{i:gi=g}),g=AA,AB,BB。(b)通过线性插值法计算待测样本的每一个SNP在个体的正常状态下的测序深度d的期望值de;(c)对待测样本的核酸进行测序,获得其每个SNP测序深度;(d)计算得到待测样本的每个SNP位点的测序深度比,即SDR,其对数形式为LSDR;以及计算得到交替等位基因频率,即AAF,其中SDR=d/de;LSDR=log2(d/de);以及...

【技术特征摘要】
1.一种用于对受测者(例如哺乳动物,特别是人)样品基因组中的拷贝数变异进行分析的方法,所述方法包括以下步骤:(a)采集参考样本,对其核酸进行测序,在其SNP位点上检测每个样本的基因型,对于每一个SNP位点,参考等位基因记为A,交替等位基因记为B,三种基因型为AA、AB和BB,获得SNP位点上的参考等位基因和交替等位基因的测序深度dA和dB,计算得到这个SNP位点的测序深度d,其中d=dA+dB,记其交替等位基因B占这个SNP位点的测序深度的比值为θ,即θ=dB/(dA+dB),θ∈[0,1];参考样本的个数设为N,检测的SNP位点个数设为M,对第i个SNP(i为1,2,3,…,M),获得其参考等位基因和交替等位基因的测序深度diA和diB,计算得到这个SNP位点的测序深度di,其中di=diA+diB,其交替等位基因B占测序深度的比值为θi=diB/(diA+diB),θi∈[0,1];当θi靠近0、0.5和1时对应AA、AB和BB基因型;以d为横坐标,θ为纵坐标做图,所述N个样本的每个SNP的di和θi值在图上形成相对于AA、AB和BB基因型的三个点簇,算出三个点簇的中心位置的Dg和Θg值,其中Dg和Θg值可为点簇上所有点的di或θi的平均值或中位数值:Dg=median(dj,j∈{i:gi=g}),g=AA,AB,BB;Θg=median(θj,j∈{i:gi=g}),g=AA,AB,BB。(b)通过线性插值法计算待测样本的每一个SNP在个体的正常状态下的测序深度d的期望值de;(c)对待测样本的核酸进行测序,获得其每个SNP测序深度;(d)计算得到待测样本的每个SNP位点的测序深度比,即SDR,其对数形式为LSDR;以及计算得到交替等位基因频率,即AAF,其中SDR=d/de;LSDR=log2(d/de);以及(e)采用隐马尔可夫模型分析上述步骤得到的数据,检查目标基因组的拷贝数变异状况。2.权利要求1的方法,其中步骤(e)中所述采用隐马尔可夫模型分析包括以下步骤:在M个SNP位点的AAF和LSDR值记为xi和yi(i=1,...,M),构成隐马尔可夫模型的显层;记M个SNP位点的拷贝数变异状态为zi(i=1,...,M),构成隐马尔可夫模型的隐层,其中每个zi有6个可能的状态:从隐层到显层的发射概率为:p(xi,yi|zi)=p(xi|zi)p(yi|zi);对应AAF的发射概率为:其中b(g;G(z)-1,pB)为二项分布的概率密度函数:φ(x;μ,σ)为正态分布概率密度函数:其中G(z)为该SNP位点CNV状态z对应的基因型数(即基因型可能的取值个数),对应的基因型如上表所示;g=0,…,G(z)-1,为这G(z)个基因型中B等位基因的个数;当g=0或g=G(z),即CNV基因型为纯合基因型时,对应的正太概率密度函数替换成以0或1为边界的截断正态分布概率密度函数;pB为群体B等位基因频率;μx,z,g为不同CNV状态基因型对应的AAF均值,按如下公式计算初始值:σx,z,g为不同CNV状态基因型对应的AAF标准差,初始值通过待测样本的数据估计;对应LSDR的发射概率为:其中φ(y;μ,σ)为正态分布概率密度函数,参数μy,z和σy,z为不同CNV状态对应的LSDR均值和标准差;μy,z的初始值用如下公式计算:其中C(z)为不同CNV状态对应的总拷贝数;σy,z的初始值通过待测样本的数据估计;隐层相邻SNP位点之间的转移概率为:其中l为相邻两个SNP位点之间的距离,对于正常状态(即z=4)到其他状态的转移,L取值范围为10-100Mb,优选为100Mb;对于其他状态之间的转换L取0.1~1Mb,优选为0.1Mb;ps,t为基础状态转移概率,当s=t=4时,即相邻两个SNP为正常状态,p4,4取值为非常接近于1的概率,如0.999995;当s=t、s≠4且t≠4时,即相邻两个SNP为相同的拷贝数变异状态,ps,t取值接近于1的概率,但小于p4,4,如0.95;当s≠4且t=4时,即从拷贝数变异状态转移到正常状态,ps,t取值为较小的概率,如0.049996;当s和t为其他组合时,即从正常状态转移到拷贝数变异状态或不同拷贝数状态之间的转移,ps,t取值为极小的概率,如0.000001;由Viterbi算法估计隐层各SNP位点的拷贝数变异状态。3.如权利要求2所述的方法,其中计算所述σx,z,g和σy,z的初始值的具体步骤为:(1)定义用差分计算标准差的方法:对于一列2n个SNP的观测值(a1,...,a2n),它们按SNP在染色体上的位置排列,数值的分布符合以下性质,即ai=μk+εi,i∈[ik-1,ik),k=1,...,K,ik为变点(changepoint)且变点数K<<2n;εi为独立同分布噪声,均值为0,标准差为σ;定义Δi=z2i-1-z2i,那么Δi(i=1,...,n)为独立同分布,均值为0,标准差为Δi的标准差于是ai的标准差估计为(2)估计σx,z,g的初始值时,先取待测样本AAF值xi(i=1,...,M)的子集{xi:0.2<xi<0.8},即选择那些杂合基因型的SNP对应的AAF值;然后再对这个子集应用(1)的方法,得到的估计为σx;于是对于不同CNV状态基因型的σx,z,g的初始估值为(3)估计σy,z的初始值时,直接对于待测样本的LSDR值yi(i=1,...,M)应用(1)的计算方法。4.如权利要求3所述的方法,其中参数μx,z,g、σx,z,g、μy,z和σy,z在得到初始值后,根据待测样本AAF和LSDR的观测数据,由Baum-Welch算法对待测样本的参数进一步准确估计。5.如权利要求1所述的方法,其中计算第i个SNP位点的测序深度di时,对获得的原始测序深度进行正则化处理,即对于样本i(i=1,…,N),其基因型记为gi(gi∈{AA,AB,BB}),等位基因A和B的原始测序深度记为和对原始测序深度进行如下正则化,其中Ci为第i个样本的总测序深度,即所有M个SNP位点的原始测序深度之和;为N个样本Ci的平均值,即该SNP位点的正则化后的测序深度为di=diA+diB。6.如权利要求1所述的方法,其中步骤(b)中通过以下线性插值法公式计算得到de:7.一种用于对受测者(哺乳动物,例如人)的样品(特别是体液样品,例如血清和尿液样品)基因组中的拷贝数变异进行分析的方法,所述方法包括以下步骤:(a)分别采集目标个体的体液样品以及含有正常基因组的组织样品(如血沉棕黄层或口腔上皮细胞),从体液样品分离获得待测的体液游离核酸,从含有正常基因组的组织样品分离得到参考核酸,对所述体液游离核酸和参考核酸进行测序,在其SNP位点上检测其基因型,对于每一个SNP位点,参考等位基因记为A,变异等位基因记为B,三种基因型为AA、AB和BB;(b)计算得到目标个体的每个杂合型SNP位点的测序深度比SDR,其对数形式为LSDR,其方法如下:获得每个杂合型SNP位点附近2L宽度区域内(SNP上游宽度为L和下游宽度为L;L范围为300-2000bp,例如L=1000bp)每个碱基位置的测序深度,参考核酸和体液游离核酸在第j个碱基位置上的测序深度记为dN,i,j和dT,i,j;检测的SNP位点个数设为M,对第i个杂合型SNP(i为1,2,3,…,M),参考核酸和体液游离核酸的加权测序深度分别为:其中w(li,j)为权重;优选的,所述权重为高斯核(GaussianKernel)σ的取值范围为0.3L至L;li,j为区域中第j个碱基距离SNPi位点的距离,第i个杂合型SNP位点的LSDR值计算为:(c)计算得到受测者的每个杂合型SNP位点对应的交替等位单倍体频率,即AHF,其方法如下:获得受测者的体液游离核酸中第i个杂合型SNP周围宽度为2R范围内的杂合基因型SNP位点(上游宽度为R,下游宽度为R;R范围为10-100kb,例如R=50Kb)的基因型;对基因型数据做单倍型定相,判断临近的杂合型SNP位点的两个等位基因A和B各处在哪个单倍体上;在血清游离DNA中,在A和B单倍体上第i个杂合型SNP位点附近其他杂合型SNP位点的测序深度记为dT,A,i,j和dT,B,i,j;计算第i个杂合型SNP在A和B单倍体上的加权测序深度:其中w(li,j)为权重;优选的,所述权重为高斯核(GaussianKernel)σ的取值范围为0.2R至R;li,j为区域中第j个其他杂合型SNP位点距离SNPi位点的距离;血清游离DNA中SNPi位点的AHF值为:参考DNA中SNPi位点的AHF值为:进一步计算:LmAHFi=log2(mAHFT,i/mAHFN...

【专利技术属性】
技术研发人员:郝柯张仲阳
申请(专利权)人:郝柯张仲阳
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1