一种基于扩增子二代测序拷贝数变异检测的方法及装置制造方法及图纸

技术编号:14521038 阅读:79 留言:0更新日期:2017-02-01 23:59
本发明专利技术公开了一种基于扩增子二代测序拷贝数变异检测的方法及装置。其中,该方法包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到目标区域的序列;S3,将目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;S4,将阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将待测样本在每个扩增子上的覆盖度与正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。应用本发明专利技术的技术方案,提高了基于扩增子二代测序拷贝数变异检测的准确性。

【技术实现步骤摘要】

本专利技术涉及生物学领域,具体而言,涉及一种基于扩增子二代测序拷贝数变异检测的方法及装置
技术介绍
多重扩增子二代测序是将感兴趣的基因组区域定制成特异性扩增引物与基因组DNA进行特异性扩增,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。多重扩增子二代测序是目前基因组学研究中的一个热点技术,主要原因是该技术消耗少量的成本和时间。在相同成本下,研究者可以研究到更多的样本数量和测到更深的深度。作为一个强大、有效的技术,它在新一代高通量测序中发挥独特之处,应用领域越来越广泛。赛默飞公司推出的IonAmpliSeqTM是扩增子二代测序典型产品。通过扩增富集目标区域序列,然后使用proton进行二代测序得到序列具体情况,然后使用统计学检验对样本中低拷贝数变异与扩增中出现的不一致进行区分。但是这种方法检出效果的准确性还待进一步地提高。
技术实现思路
本专利技术旨在提供一种基于扩增子二代测序拷贝数变异检测的方法及装置,以提高基于扩增子二代测序拷贝数变异检测的准确性。为了实现上述目的,根据本专利技术的一个方面,提供了一种基于扩增子二代测序拷贝数变异检测的方法。该方法包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到目标区域的序列;S3,将目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;S4,将阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将待测样本在每个扩增子上的覆盖度与正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。进一步地,S4中,如果均一化后的待测样本的扩增子上的覆盖度与背景噪音相比p-value<1e-3,那么扩增子作为拷贝数变异阳性检出。进一步地,S3中数据信息处理包括:S31,使用TMAP比对软件将目标区域的序列与参考基因组相比对;S32,使用samtools软件建立比对文件的索引,并且使用GATK软件得到每个扩增子上的覆盖度。根据本专利技术的另一方面,提供了一种基于扩增子二代测序拷贝数变异检测的装置。该装置包括:样本处理装置,用于分别提取待测样本和阴性对照样本的DNA,并多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;测序装置,用于通过二代测序得到目标区域的序列;覆盖度获取装置,用于将目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;拷贝数变异检出装置,用于将阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将待测样本在每个扩增子上的覆盖度与正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。进一步地,拷贝数变异检出装置中,如果均一化后的待测样本的扩增子上的覆盖度与背景噪音相比p-value<1e-3,那么扩增子作为拷贝数变异阳性检出。进一步地,覆盖度获取装置中数据信息处理包括:使用TMAP比对软件将目标区域的序列与参考基因组相比对;使用samtools软件建立比对文件的索引,并且使用GATK软件得到每个扩增子上的覆盖度。每个扩增子的扩增效果不同,应用本专利技术的技术方案,将阴性对照样本在每个扩增子分别使用其覆盖度创建正态分布模型作为背景噪音,将待测样本在每个扩增子上的覆盖度与正态分布模型做双边检验,将不属于正态分布的扩增子即p-value<1e-3的作为拷贝数变异阳性检出,因此,顾及到每个扩增子在不同次测序时的覆盖度差异大小,对于稳定的扩增子可以得到更低拷贝数的阳性检出,对于有异质性的组织或是含有少量突变DNA的样本都可以增加灵敏度,而不稳定的扩增子提高拷贝数检出的阈值,可以防止假阳性的检出。附图说明构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了根据本专利技术一具体实施方式的基于扩增子二代测序拷贝数变异检测的方法流程示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。专利技术人发现,在基于扩增子的二代测序中,每次实验每个扩增子很难按照比例进行扩增。现有技术对所有扩增子设置同样的阈值,而明显由于引物序列差异,在扩增时会有一定区别,特别是不同引物在多次扩增之间覆盖度的方差不同会影响检出效果,采取同样阈值不能最大限度区分引物原因造成的背景噪音与真实突变。本专利技术使用阴性对照样本得到每个扩增子上背景噪音分布,使用正态检验区分在待测样本中能与背景噪音区分的所有和目标性状相关的拷贝数变异。这样,可以使待测样本中拷贝数变异的灵敏度和特异度得到提升。根据本专利技术一种典型的实施方式,提供一种基于扩增子二代测序拷贝数变异检测的方法。该方法包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到目标区域的序列;S3,将目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;S4,将阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将待测样本在每个扩增子上的覆盖度与正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。优选的,S4中,如果均一化后的待测样本的扩增子上的覆盖度与背景噪音相比p-value<1e-3,那么扩增子作为拷贝数变异阳性检出。根据本专利技术一种典型的实施方式,S3中数据信息处理包括:S31,使用TMAP比对软件将目标区域的序列与参考基因组相比对;S32,使用samtools软件建立比对文件的索引,并且使用GATK软件得到每个扩增子上的覆盖度。根据本专利技术一种典型的实施方式,提供一种基于扩增子二代测序拷贝数变异检测的装置。该装置包括:样本处理装置,用于分别提取待测样本和阴性对照样本的DNA,并多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;测序装置,用于通过二代测序得到目标区域的序列;覆盖度获取装置,用于将目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;拷贝数变异检出装置,用于将阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将待测样本在每个扩增子上的覆盖度与正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。优选的,拷贝数变异检出装置中,如果均一化后的待测样本的扩增子上的覆盖度与背景噪音相比p-value<1e-3,那么扩增子作为拷贝数变异阳性检出。根据本专利技术一种典型的实施方式,覆盖度获取装置中数据信息处理包括:使用TMAP比对软件将目标区域的序列与参考基因组相比对;使用samtools软件建立比对文件的索引,并且使用GATK软件得到每个扩增子上的覆盖度。根据本专利技术一种典型的实施方式,基于扩增子二代测序拷贝数变异检测的方法如图1所示,主要包括拷贝数变异检测程序外完成和拷贝数变异检测程序内完成两大部分,其中本文档来自技高网...

【技术保护点】
一种基于扩增子二代测序拷贝数变异检测的方法,其特征在于,包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,所述阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到所述目标区域的序列;S3,将所述目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;S4,将所述阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将所述待测样本在每个扩增子上的覆盖度与所述正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。

【技术特征摘要】
1.一种基于扩增子二代测序拷贝数变异检测的方法,其特征在于,包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,所述阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到所述目标区域的序列;S3,将所述目标区域的序列与参考基因组相比对,数据信息处理后得到每个扩增子的覆盖度;S4,将所述阴性对照样本在每个扩增子上的覆盖度分别创建正态分布模型作为背景噪音,将所述待测样本在每个扩增子上的覆盖度与所述正态分布模型做双边检验,将不属于正态分布的扩增子作为拷贝数变异阳性检出。2.根据权利要求1所述的方法,其特征在于,所述S4中,如果均一化后的所述待测样本的扩增子上的覆盖度与所述背景噪音相比p-value<1e-3,那么所述扩增子作为拷贝数变异阳性检出。3.根据权利要求1所述的方法,其特征在于,所述S3中数据信息处理包括:S31,使用TMAP比对软件将所述目标区域的序列与所述参考基因组相比对;S32,使用samtools软件建立比对文件的索引,并且使用GATK软件得到每个扩增子上的覆盖度。4.一种基于扩增子二代测...

【专利技术属性】
技术研发人员:朱嘉麒王棪张振宇马丽娟
申请(专利权)人:天津诺禾致源生物信息科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1