用于在确定拷贝数变异中改善检测的灵敏度的方法技术

技术编号:14803372 阅读:80 留言:0更新日期:2017-03-14 23:29
本发明专利技术披露了用于确定已知或疑似与各种各样的医学状况相关的拷贝数变异(CNV)的方法。在一些实施方式中,提供了利用包含母体和胎儿无细胞DNA的母体样品来确定胎儿的拷贝数变异(CNV)的方法。在一些实施方式中,提供了用于确定已知或疑似与各种各样的医学状况相关的CNV的方法。本文披露的一些实施方式提供了通过除去样品中GC含量偏差来改善序列数据分析的灵敏度和/或特异性的方法。在一些实施方式中,样品中GC含量偏差的除去是基于针对通用于不受影响的训练样品的系统性变化修正的序列数据。还披露了用于感兴趣的序列的CNV的评价的系统和计算机程序产品。

【技术实现步骤摘要】
【国外来华专利技术】与相关申请的参考本申请依据35U.S.C.§119(e)要求于2013年10月21日提交的题为“METHODFORIMPROVINGTHESENSITIVITYOFDETECTIONINDETERMININGCOPYNUMBERVARIATIONS(用于在确定拷贝数变异中改善检测的灵敏度的方法)”美国临时专利申请号61/893,830的优先权,其全部内容以引用方式结合于本文。
技术介绍
人类医学研究中的关键的努力之一是产生不良健康后果的遗传异常的发现。在许多情况下,在基因组的多个部分中已确定了特定基因和/或关键的诊断标志物,它们是以异常拷贝数存在的。例如,在产前诊断中,全染色体的额外的或丢失的拷贝是频繁发生的遗传性病变。在癌症中,全染色体或染色体片段的拷贝的缺失或倍增,以及基因组的特定区域的较高水平扩增是常见的情况。通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷贝数变异(CNV)的大部分信息。用于基因筛查和生物学剂量测定的常规程序已经利用了侵入性程序,例如,羊膜穿刺术、脐静脉穿刺术、或绒膜绒毛取样(CVS),来获得用于核型分析的细胞。认识到需要并不要求细胞培养的更快速的测试方法,已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列-比较基因组杂交(阵列-CGH)作为用于拷贝数变异分析的分子细胞遗传学方法。人类医学研究中的关键的努力之一是产生不良健康后果的遗传异常的发现。在许多情况下,在基因组的多个部分中已确定了特定基因和/或关键的诊断标志物,它们是以异常拷贝数存在的。例如,在产前诊断中,全染色体的额外的或丢失的拷贝是频繁发生的遗传性病变。在癌症中,全染色体或染色体片段的拷贝的缺失或倍增,以及基因组的特定区域的较高水平扩增是常见的情况。通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷贝数变异(CNV)的大部分信息。用于基因筛查和生物学剂量测定的常规程序已经利用了侵入性程序,例如,羊膜穿刺术、脐静脉穿刺术、或绒膜绒毛取样(CVS),来获得用于核型分析的细胞。认识到需要并不要求细胞培养的更快速的测试方法,已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列-比较基因组杂交(阵列-CGH)作为用于拷贝数变异分析的分子细胞遗传学方法。允许在相对较短的时间内对测序整个基因组进行测序的技术的出现以及循环无细胞的DNA(cell-freeDNA,cfDNA)的发现已提供了将来自一个有待比较的染色体的遗传物质以与另一个染色体的遗传物质进行比较的机会,而没有伴随侵入性采样方式的风险,其提供了一种诊断感兴趣的基因序列的各种各样拷贝数变异的工具。在一些应用中,拷贝数变异(CNV)的诊断涉及高度的技术挑战。例如,对于异卵多胎(或多卵性,polyzygotic)妊娠的CNV的非侵入性产前诊断(NIPD)比单胎妊娠更加困难,这是因为胎儿cfDNA的总分数与胎儿的数目并不是成正比变化,这使cfDNA的胎儿分数降低了胎儿数目的一个数量级,其反过来又会降低分析的的信噪比。另外,基于Y染色体的诊断如性别鉴定受到与Y染色体相关限制的影响。具体地,Y染色体的覆盖度(coverage)低于常染色体的覆盖度,并且在Y染色体上的重复序列使得读数到其正确位置的定位的映射复杂化。此外,一些目前的测序方法方法利用超短读数如25聚体读数和标签,从而提出另一个序列比对挑战,因为25聚体标签短于大多数遍在重复元件的典型尺寸。本文披露的一些实施方式提供了在分析用于评价CNV的序列数据时改善灵敏度和/或特异性的方法。无侵入性产前诊断中现有方法存在局限性,包括源于cfDNA的有限水平的灵敏度不足,以及源于基因组信息的固有特性的技术的测序偏差,构成了对能够提供任何或所有的特异性、灵敏度、和适用性,以在各种各样的临床设置中可靠地诊断拷贝数变化的非侵入性方法的持续需要的基础。本文披露的实施方式满足一些上述需要,并且尤其提供了适用于无侵入性产前诊断的实践的可靠方法。专利技术概述在一些实施方式中,提供了用于确定任何胎儿非整倍性的拷贝数变异(CNV),以及已知或疑似相关与各种各样的医学状况的CNV的方法。所述方法包括用于减少与基因组序列的GC波动的噪声和误差有关的机制。能够根据本方法确定的CNV包括1-22、X和Y中的任意一个或多个染色体的三体性和单体性,其他染色体多体性,以及任意一个或多个染色体的片段的缺失和/或复制。另一种实施方式提供了一种用于确定在测试样品中感兴趣的核酸序列(例如,临床相关序列)的拷贝数变异(CNV)的方法。所述方法评价感兴趣的序列而不是完整的染色体或染色体的片段的拷贝数变异。在一些实施方式中,用包括一个或多个处理器和系统存储器的计算机系统来实施所述方法,从而评价在包含一个或多个基因组的核酸的测试样品中感兴趣的核酸序列的拷贝数。所述方法包括:(a)提供通过核酸序列测定仪由测试样品获得的序列读数;(b)比对测试样品与包含感兴趣的核酸序列的参比基因组的序列读数,从而提供测试序列标签;(c)确定位于每个bin中的测试序列标签的覆盖度,其中参比基因组被分成多个bin;(d)提供针对感兴趣的核酸序列的全局配置参数(globalprofile),其中全局配置参数包含每个bin中的预期覆盖度,以及其中预期覆盖度获自以与测试样品基本相同的方式测序和比对的未受影响的(例如,二倍体)训练样品的训练集(trainingset),预期覆盖度呈现bin之间的变化;(e)利用在每个bin中至少感兴趣的核酸序列的预期覆盖度来调节测试序列标签的覆盖度,从而获得针对感兴趣的核酸序列的全局配置参数修正的覆盖度;(f)基于在GC含量水平和全局配置参数修正的覆盖度之间的关系,调节全局配置参数修正的覆盖度,从而获得针对感兴趣的核酸序列的样品-GC-修正的覆盖度;以及(g)基于样品-GC-修正的覆盖度,评价在测试样品中感兴趣的核酸序列的拷贝数。在一些实施方式中,在文库深度差(librarydepthdifference)的归一化之后,获得在步骤(c)中确定的覆盖度。文库归一化可涉及覆盖度除以映射到鲁棒染色体(稳健染色体,robustchromosome)(预期是如本文所描述的二倍体)的读数的总数。可替换地,文库深度归一化可能涉及覆盖度除以映射到全基因组的读数数目,从而产生序列与标签密度比值。在一些实施方式中,样品本身的测序数据可以用来得到估计本文档来自技高网...

【技术保护点】
一种用包括一个或多个处理器和系统存储器的计算机系统来实施的用于评价测试样品中的感兴趣的核酸序列的拷贝数的方法,所述方法包括:(a)在所述计算机系统中提供通过核酸序列测定仪由所述测试样品获得的序列读数,所述测试样品包含来自一个或多个基因组的核酸分子;(b)通过所述计算机系统,比对所述测试样品与包含感兴趣的核酸序列的参比基因组的序列读数,从而提供测试序列标签;(c)通过所述计算机系统,确定位于每个bin中的所述测试序列标签的覆盖度,其中所述参比基因组被分成多个bin,并且其中所述覆盖度表示bin中序列标签的丰度;(d)通过所述计算机系统,提供所述感兴趣的核酸序列的全局配置参数,其中所述全局配置参数包含每个bin中的预期覆盖度,并且其中所述预期覆盖度获自未受影响的训练样品的训练集,所述训练样品包含以与所述测试样品基本相同的方式进行测序和比对的核酸分子,所述预期覆盖度呈现在bin之间的变化;(e)通过所述计算机系统,利用在至少所述感兴趣的核酸序列的每个bin中的所述预期覆盖度来调节所述测试序列标签的覆盖度,从而获得所述感兴趣的核酸序列的全局配置参数修正的覆盖度;(f)通过所述计算机系统,并基于GC含量水平与所述全局配置参数修正的覆盖度之间的关系,来调节全局配置参数修正的覆盖度,从而获得所述感兴趣的核酸序列的样品‑GC‑修正的覆盖度,以及(g)通过所述计算机系统,并基于所述样品‑GC‑修正的覆盖度,来评价所述测试样品中所述感兴趣的核酸序列的拷贝数,其中所述样品‑GC‑修正的覆盖度针对用于确定所述感兴趣的核酸序列的拷贝数,改善信号水平和/或降低噪声水平。...

【技术特征摘要】
【国外来华专利技术】2013.10.21 US 61/893,8301.一种用包括一个或多个处理器和系统存储器的计算机系统来实施的
用于评价测试样品中的感兴趣的核酸序列的拷贝数的方法,所述方法包括:
(a)在所述计算机系统中提供通过核酸序列测定仪由所述测试样品获
得的序列读数,所述测试样品包含来自一个或多个基因组的核酸分子;
(b)通过所述计算机系统,比对所述测试样品与包含感兴趣的核酸序
列的参比基因组的序列读数,从而提供测试序列标签;
(c)通过所述计算机系统,确定位于每个bin中的所述测试序列标签
的覆盖度,其中所述参比基因组被分成多个bin,并且其中所述覆盖度表示
bin中序列标签的丰度;
(d)通过所述计算机系统,提供所述感兴趣的核酸序列的全局配置参
数,其中所述全局配置参数包含每个bin中的预期覆盖度,并且其中所述预
期覆盖度获自未受影响的训练样品的训练集,所述训练样品包含以与所述
测试样品基本相同的方式进行测序和比对的核酸分子,所述预期覆盖度呈
现在bin之间的变化;
(e)通过所述计算机系统,利用在至少所述感兴趣的核酸序列的每个
bin中的所述预期覆盖度来调节所述测试序列标签的覆盖度,从而获得所述
感兴趣的核酸序列的全局配置参数修正的覆盖度;
(f)通过所述计算机系统,并基于GC含量水平与所述全局配置参数
修正的覆盖度之间的关系,来调节全局配置参数修正的覆盖度,从而获得
所述感兴趣的核酸序列的样品-GC-修正的覆盖度,以及
(g)通过所述计算机系统,并基于所述样品-GC-修正的覆盖度,来评
价所述测试样品中所述感兴趣的核酸序列的拷贝数,其中所述样品-GC-修
正的覆盖度针对用于确定所述感兴趣的核酸序列的拷贝数,改善信号水平
和/或降低噪声水平。
2.根据前述任一权利要求所述的方法,进一步包括,在提供序列读数
之前,利用测序仪对来自所述测试样品的核酸进行测序,从而产生所述序
列读数。
3.根据权利要求2所述的方法,进一步包括,在对所述核酸进行测序
之前,使标志物核酸与所述测试样品结合。
4.根据权利要求3所述的方法,其中,所述标志物核酸选自由天然存
在的脱氧核糖核酸、天然存在的核糖核酸、肽核酸(PNA)、吗啉代核酸、
锁核酸、二醇核酸、苏糖核酸,和它们的任意组合组成的组。
5.根据权利要求1所述的方法,其中,所述序列读数获自孕妇的无细
胞DNA和由所述孕妇携带的胎儿的无细胞DNA的序列。
6.根据权利要求1所述的方法,进一步包括施加序列掩码,所述序列
掩码排除在掩蔽bin中的考虑覆盖度。
7.根据权利要求6所述的方法,其中,所述序列掩码通过包括以下步
骤的方法获得:
在所述计算机系统中提供训练集,所述训练集包含来自多个未受影响
的训练样品的序列读数;
通过所述计算机系统,比对所述训练集与所述参比基因组的序列读数,
从而提供所述训练样品的训练序列标签;
通过所述计算机系统,将所述参比基因组分成多个bin;
通过所述计算机系统,针对每个训练样品确定每个bin中训练序列标签
的覆盖度;以及
通过所述计算机系统,产生包含未掩蔽和掩蔽bin的序列掩码,其中每
个掩蔽bin具有超过掩蔽阈值的分布指数,所述分布指数与所述训练样品的
覆盖度的分布有关。
8.根据权利要求7所述的方法,进一步包括,在产生序列掩码之前,
根据每个bin中的预期覆盖度来调节所述训练序列标签的覆盖度,从而获得
所述bin中所述训练序列标签的全局配置参数修正的覆盖度,所述全局配置
参数修正的覆盖度然后用来产生序列掩码。
9.根据权利要求7所述的方法,其中,所述分布指数在数学上与所述
训练样品的覆盖度的方差有关。
10.根据权利要求9所述的方法,其中,所述分布指数是变异系数。
11.根据权利要求6所述的方法,其中,所述感兴趣的核酸序列上的掩
蔽bin具有第一掩蔽阈值并且归一化序列上的掩蔽bin具有第二掩蔽阈值。
12.根据权利要求11所述的方法,其中,所述第一掩蔽阈值和所述第
二掩蔽阈值的组合提供序列掩码,所述序列掩码导致未受影响的样品中的
包括所述感兴趣的序列的区域上比利用其他阈值获得的序列掩码更低的覆
盖度变异。
13.根据权利要求6所述的方法,其中,所述序列掩码包含由跨整个所
述bin内的训练样品的映射质量得分的分布所定义的掩蔽bin和未掩蔽bin,
所述映射质量得分来源于多个未受影响的训练样品与所述参比基因组的比
对序列读数。
14.根据前述任一权利要求所述的方法,其中,在操作(g)中评价所
述测试样品中所述感兴趣的核酸序列的拷贝数包括利用归一化序列的覆盖
度信息,针对所述测试样品,来计算所述感兴趣的核酸序列的序列剂量。
15.根据权利要求14所述的方法,其中,计算所述序列剂量包括所述
感兴趣的核酸序列中的所述测试序列标签的样品-GC-修正的覆盖度除以归
一化序列中的所述测试序列标签的样品-GC-修正的覆盖度。
16.根据权利要求15所述的方法,其中,所述归一化序列包含一个或
多个鲁棒常染色体序列或它们的片段。
17.根据前述任一权利要求所述的方法,其中,在操作(g)中评价所
述测试样品中所述感兴趣的核酸序列的拷贝数包括利用归一化序列的覆盖
度信息,针对所述测试样品,计算所述感兴趣的核酸序列的归一化染色体
值或归一化片段值。
18.根据前述任一权利要求所述的方法,其中,所述测试样品包含来自
两个不同基因组的核酸的混合物。
19.根据权利要求18所述的方法,其中,所述核酸包含无细胞DNA
分子。
20.根据前述任一权利要求所述的方法,其中,所述测试样品包含胎儿
和母体无细胞核酸。
21.根据前述任一权利要求所述的方法,其中,所述测试样品包含来自
两个或更多个胎儿的胎儿无细胞核酸。
22.根据前述任一权利要求所述的方法,其中,所述测试样品包含来自
相同受试者的癌细胞和未受影响的细胞的核酸。
23.根据前述任一权利要求所述的方法,其中,所述评价所述测试样品
中所述感兴趣的核酸序列的拷贝数包括确定完全或部分胎儿非整倍性的存
在或不存在。
24.根据前述任一权利要求所述的方法,进一步包括,考虑到拷贝数变
异的评价,在操作(f)之后,除去样品-GC-修正的覆盖度的离群bin。
25.根据权利要求24所述的方法,其中,所述离群bin包含其中位数
样品-GC-修正的覆盖度离所有所述bin的中位数是大于约1中位数绝对偏差
的bin。
26.根据前述任一权利要求所述的方法,其中,每个bin中的预期覆盖
度包含训练样品的覆盖度的中位数或平均值,并且其中在操作(e)中调节
所述测试序列标签的覆盖度包括每个bin的所述测试序列标签的覆盖度除
以来自所述相应bin的训练样品的覆盖度的中位数或平均值。
27.根据前述任一权利要求所述的方法,其中,在操作(e)中调节所
述测试序列标签的覆盖度包括:(i)在一个或多个鲁棒染色体或区域中的
多个bin中获得在所述测试序列标签的覆盖度和所述预期覆盖度之间的关
系,以及(ii)将所述数学关系应用于所述感兴趣的序列中的bin,以获得
所述全局配置参数修正的覆盖度。
28.根据权利要求27所述的方法,其中
通过线性回归来获得(i)中的关系:
ya=截距+斜率*gwpa其中ya是在一个或多个鲁棒染色体或区域中所述测试样品的bina的覆
盖度,并且gwpa是针对未受影响的训练样品,bina的全局配置参数;以及
在(ii)中获得所述全局配置参数修正的覆盖度包括如下获得所述全局
配置参数修正的覆盖度zb:
zb=yb/(截距+斜率*gwpb)-1
其中yb是在所述感兴趣的序列中所述测试样品的binb的观测覆盖度,
并且gwpb是针对未受影响的训练样品的binb的全局配置参数。
29.根据前述任一权利要求所述的方法,其中,来自(e)的所述测试
序列标签的全局配置参数修正的覆盖度包含所述感兴趣的核酸序列中bin
的全局配置参数修正的覆盖度和归一化序列中bin的全局配置参数修正的
覆盖度。
30.根据前述任一权利要求所述的方法,其中,在操作(f)中调节所
述全局配置参数修正的覆盖度包括:
将所述参比基因组中的bin分组为多个GC组,每个GC组包含多个bin,
其中所述多个bin含有测试序列标签并具有类似的GC含量;
针对多个鲁棒常染色体的每个GC组,确定所述全局配置参数修正的覆
盖度的预期值;以及
对于每个GC组,基于相同GC组的确定的预期值,调节所述测试序列
标签的全局配置参数修正的覆盖度,从而获得所述感兴趣的核酸序列上的
测试序列标签的样品-GC-修正的覆盖度。
31.根据权利要求30所述的方法,其中,所述全局配置参数修正的覆
盖度的预期值是多个鲁棒常染色体的GC组的覆盖度的平均值或中位数。
32.根据权利要求30所述的方法,其中,调节所述测试序列标签的全
局配置参数修正的覆盖度包括从所述全局配置参数修正的覆盖度减去所述
预期值。
33.根据前述任一权利要求所述的方法,其中,在操作(f)中的所述
调节所述全局配置参数修正的覆盖度包括:
将线性或非线性数学函数拟合为来自多个鲁棒常染色体的数据点,其
中每个数据点使覆盖度值与GC含量值相关;
基于每个bin的覆盖度的预期值,调节每个bin中的测试序列标签的全
局配置参数修正的覆盖度,所述全局配置参数修正的覆盖度等于考虑中的
bin的GC含量值处所述数学函数的覆盖度值。
34.根据权利要求33所述的方法,其中,调节所述测试序列标签的全
局配置参数修正的覆盖度包括从所述全局配置参数修正的覆盖度减去所述
预期值。
35.根据权利要求30至34中任一项所述的方法,其中,所述鲁棒常染
色...

【专利技术属性】
技术研发人员:达里娅·I·丘多瓦戴安娜·阿布杜伊瓦里查德·P·拉瓦
申请(专利权)人:维里纳塔健康公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1