染色体三倍体检验方法技术

技术编号:10652620 阅读:300 留言:0更新日期:2014-11-19 15:05
本发明专利技术公开了一种染色体三倍体检测方法,包括:将测试样本的测序结果比对到参考序列上,得到比对结果;将比对结果按GC含量进行分组;根据分组结果采用相关分析法得到与待检测染色体最相关的染色体以及相关统计量;对最相关的染色体以及相关统计量进行回归分析以计算待检测染色体对应的Z值,根据Z值与预设阈值的比较结果判断出待检测染色体为三倍体的概率。本发明专利技术的有益效果是:通过不同染色体的GC含量的相关性,采用典型相关分析法来确定待检测染色体与其它染色体的相关性,进而确定出待检测染色体对应的Z值,由此确定待检测染色体为三倍体的概率,而不是计算GC修正系数,避免了GC修正系数计算中引入的误差,从而去掉GC bias在测序中的影响。

【技术实现步骤摘要】
染色体三倍体检验方法
本专利技术涉及基因组学及生物信息学
,具体涉及无创产前诊断胎儿染色体三倍体检验方法。
技术介绍
染色体非整倍体病变是胎儿最常见的染色体畸形,对胎儿染色体非整倍体病变是降低出生缺陷、提高出生人口素质的重要手段。依据染色体类别不同可分为常染色体非整倍体和性染色体非整倍体。常染色体非整倍体主要包括21-三体(唐氏综合征)、18-三体(爱德华氏综合征)和13-三体(帕陶氏综合征),其中以21-三体最为常见。目前染色体异常的产前诊断技术分为有创产前诊断技术和无创产前诊断技术。有创产前诊断技术(包括绒毛取材术、羊膜腔穿刺术和经皮脐血管穿刺)通过在妊娠期获取胎儿来源细胞,进行染色体核型检测,如果发现并确诊染色体异常,则可以于分娩前尽早终止妊娠,但有创产前技术带来的风险就是可能引起流产、感染等。孕妇外周血中胎儿游离DNA的发现为无创产前诊断技术奠定了坚实的基础,通过采取孕妇静脉血,利用新一代DNA测序技术对母体外周血中的游离DNA片段进行测序,并将测序结果进行生物信息学分析,通过分析得到每条染色体检测的碱基占所有检测碱基的百分比,并将该值与由正常血样所构建的阈值作比较,从而可以确定胎儿是否具有非整倍体异常。这种无创DNA产前诊断信息分析存在两大难点:一方面孕妇外周血中胎儿遗传物质所占的比例很低,并且该比例随着孕妇个体的差异会有明显的不同。另一方面测序过程中GCbias(鸟嘌呤和胞嘧啶偏差,GuanineCytosinebias)会极大的影响诊断的精确度,在胎儿系数很低的情况下,GC的影响会让无创产前中三倍体的诊断更加困难。胎儿系数是指胎儿DNA占外周血中母体DNA的比例,如果是胎儿自己的全血DNA,如存在21-三体综合征,则其21号染色体的深度是其它染色体的1.5倍(即三条21号染色体/两条正常染色体)。但是外周血中胎儿的DNA的比例通常不可能是1,一般是0.03-0.3,这个比例越高,则检测外周血的21号染色体的深度就越容易。如果是21-三体综合征,则21号染色体的深度就越明显的偏高。例如胎儿DNA的比例(即胎儿系数)是0.3,那么,如果胎儿是具有21-三体综合征,则从母体取的外周血做的产前诊断中,理论上21号染色体的深度应该是其它染色体的深度的1.15倍。但是一般来说胎儿系数都很低,不会有0.3这么高,而GC的影响又对染色体深度的影响比较大,这也是一定要做GC修正的原因,否则低到0.1左右的深度差异的检测结果通常不准确。
技术实现思路
根据本专利技术的一方面提供一种染色体三倍体检测方法,包括:将测试样本的测序结果比对到参考序列上,得到比对结果;根据GC含量对比对结果中各染色体进行分组,得到各染色体对应的GC含量的读长序列的数目;确定第一相关统计量和第二相关统计量,所述第一相关统计量为待检测染色体与另一染色体的关于读长序列的数目的比值,所述第二相关统计量为另外一对染色体的关于读长序列的数目的比值,根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体;对所述最相关的染色体以及相关系数进行回归分析以计算待检测染色体对应的Z值,根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。依据本专利技术的另一方面提供一种染色体非整倍性检测装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述染色体三倍体检测方法。依据本专利技术的再一方面提供一种计算机可读存储介质,用于存储供计算机执行的程序,本领域普通技术人员可以理解,在执行该程序时,通过指令相关硬件可完成上述染色体三倍体检测方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。本专利技术的有益效果是:通过不同染色体的GC含量的相关性,采用典型相关分析法来确定待检测染色体与其它染色体的相关性,进而确定出待检测染色体对应的Z值,由此确定待检测染色体为三倍体的概率,而不是计算GC修正系数,避免了GC修正系数计算中引入的误差,从而去掉GCbias在测序中的影响。附图说明为了更清楚地说明本专利技术实施例,下面将对实施例中所需要使用的附图作简单地介绍,其中:图1为本专利技术一种实施例的染色体三倍体的检测方法的流程示意图;图2为不采用本专利技术的一种示例中测试样本的相对覆盖度的示意图;图3为本专利技术一种示例中染色体为i=13、j=1、i'=1、j’=4的Rij和Ri’j’的示意图;图4为本专利技术一种示例中正常染色体样本的Z值的直方图分布示意图;图5为本专利技术一种示例中正常染色体样本的Z值的Q-Q示意图;图6为本专利技术一种示例中染色体为i=18、j=1、i'=1、j’=5的Rij和Ri’j’的示意图;图7为本专利技术一种示例中染色体为i=21、j=19、i'=8、j’=19的Rij和Ri’j’的示意图。具体实施方式本专利技术采取一种新的思路,不再去计算GC的修正系数,而通过“样品内比对到不同染色体的reads受到GC的影响是一致的,即,不同染色体的GCbias有明显的相关性,从而比对到不同染色体的reads数也应该有明显的相关性”这个原理,通过典型相关分析的方法,找到不同染色体应该有在怎样的修正系数下有最大的相关性来去除GC的影响。本专利技术的方法可以对测序中GCbias的去除提供一个新的思路,且经试验,该方法在产前诊断项目产生了良好的效果,能够以较高的检验精度给出染色体的三倍体检验结果。下面通过具体实施方式结合附图对本专利技术作进一步详细说明。实施例1依据本专利技术的一种实施方式,提供一种染色体三倍体检测方法,参考图1,包括如下步骤S11~S17。步骤S11,将测试样本的测序结果比对到参考序列上,得到比对结果。测试样本是指需要进行染色体三倍体检测的个体,例如进行产前检测的孕妇。本实施例中测试样本的来源不受特别限制,例如可以选自:孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞等,只要能够从中提取出含有胎儿遗传信息的核酸样本即可。本实施例中,测试样本优选为来自孕妇的含有胎儿DNA的外周血,这样可以对胎儿进行无创产前检测且样本获取方式简便。由于样本中除胎儿核酸外还包含孕妇自身核酸,因此为避免干扰检测结果,孕妇本身应当无染色体三倍体问题,当然,这种判断通常是十分明显的。在其他实施方式中,也可以使用有创方法获得的样本,例如样本可以来自胎儿的脐带血、胎盘组织或绒毛膜组织、未培养或培养过的羊水细胞、绒毛组细胞等。本实施例对从样本中提取用于测序的核酸的方法和设备不作限定,可以采用各种已有的手段进行,例如商品化的核酸提取试剂盒。下文提及的正常样本涉及正常胎儿,即胎儿无染色体三倍体问题。依据本专利技术的实施方式对样本的测序方法和设备没有特殊依赖,通常会将提取自样本的核酸进行打断,并根据所选用的测序方法进行相应的文库(library)制备,然后进行测序。例如,可选用第三代测序平台(MetzkerML.Sequencingtechnologies-thenextgeneration.NatRevGenet.2010J本文档来自技高网
...
染色体三倍体检验方法

【技术保护点】
一种染色体三倍体检测方法,其特征在于,包括:将测试样本的测序结果比对到参考序列上,得到比对结果;根据GC含量对比对结果中各染色体进行分组,得到各染色体对应的GC含量的读长序列的数目;确定第一相关统计量和第二相关统计量,所述第一相关统计量为待检测染色体与另一染色体的关于读长序列的数目的比值,所述第二相关统计量为另外一对染色体的关于读长序列的数目的比值,根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体;对所述最相关的染色体以及所述相关系数进行回归分析以计算待检测染色体对应的Z值,根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。

【技术特征摘要】
1.一种染色体三倍体检测方法,其特征在于,包括:将测试样本的测序结果比对到参考序列上,得到比对结果;根据GC含量对比对结果中各染色体进行分组,得到各染色体对应的GC含量的读长序列的数目;确定第一相关统计量和第二相关统计量,所述第一相关统计量为待检测染色体与另一染色体的比值,所述第二相关统计量为另外一对染色体的比值,根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体;对所述最相关的染色体以及所述相关系数进行回归分析以计算待检测染色体对应的Z值,根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。2.根据权利要求1所述的方法,其特征在于,所述确定第一相关统计量和第二相关统计量这一步骤包括:计算第一统计量Rijγ和第二统计量Ri’j’γ’,Rijγ表示第一读长序列的数目niγ与第二读长序列的数目njγ的比值,所述第一读长序列对应待检测染色体i且GC分量为γ,所述第二读长序列对应染色体j且GC分量为γ,Ri’j’γ’表示第三读长序列的数目ni’γ’与第四读长序列的数目nj’γ’的比值,所述第三读长序列对应待检测染色体i'且GC分量为γ’,所述第四读长序列对应染色体j’且GC分量为γ’;计算待检测染色体i与另一个染色体j之间的第一相关统计量Rij,计算公式为计算另外一对染色体i'和j'之间的第二相关统计量Ri’j’,计算公式为其中aijγ和ai’j’γ’均为相关系数。3.根据权利要求2所述的方法,其特征在于,所述根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体这一步骤包括:所述相关系数的计算公式为{aijγ,ai’j’γ’}=argmax(cor(...

【专利技术属性】
技术研发人员:张鸣王俊郑伟谋
申请(专利权)人:天津华大基因科技有限公司深圳华大基因医学有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1