用于在确定拷贝数变异中改善检测的灵敏度的方法技术

技术编号：14803372 阅读：80 留言：0更新日期：2017-03-14 23:29

本发明专利技术披露了用于确定已知或疑似与各种各样的医学状况相关的拷贝数变异(CNV)的方法。在一些实施方式中，提供了利用包含母体和胎儿无细胞DNA的母体样品来确定胎儿的拷贝数变异(CNV)的方法。在一些实施方式中，提供了用于确定已知或疑似与各种各样的医学状况相关的CNV的方法。本文披露的一些实施方式提供了通过除去样品中GC含量偏差来改善序列数据分析的灵敏度和/或特异性的方法。在一些实施方式中，样品中GC含量偏差的除去是基于针对通用于不受影响的训练样品的系统性变化修正的序列数据。还披露了用于感兴趣的序列的CNV的评价的系统和计算机程序产品。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】与相关申请的参考本申请依据35U.S.C.§119(e)要求于2013年10月21日提交的题为“METHODFORIMPROVINGTHESENSITIVITYOFDETECTIONINDETERMININGCOPYNUMBERVARIATIONS(用于在确定拷贝数变异中改善检测的灵敏度的方法)”美国临时专利申请号61/893,830的优先权，其全部内容以引用方式结合于本文。
技术介绍
人类医学研究中的关键的努力之一是产生不良健康后果的遗传异常的发现。在许多情况下，在基因组的多个部分中已确定了特定基因和/或关键的诊断标志物，它们是以异常拷贝数存在的。例如，在产前诊断中，全染色体的额外的或丢失的拷贝是频繁发生的遗传性病变。在癌症中，全染色体或染色体片段的拷贝的缺失或倍增，以及基因组的特定区域的较高水平扩增是常见的情况。通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷贝数变异(CNV)的大部分信息。用于基因筛查和生物学剂量测定的常规程序已经利用了侵入性程序，例如，羊膜穿刺术、脐静脉穿刺术、或绒膜绒毛取样(CVS)，来获得用于核型分析的细胞。认识到需要并不要求细胞培养的更快速的测试方法，已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列-比较基因组杂交(阵列-CGH)作为用于拷贝数变异分析的分子细胞遗传学方法。人类医学研究中的关键的努力之一是产生不良健康后果的遗传异常的...

【技术保护点】
一种用包括一个或多个处理器和系统存储器的计算机系统来实施的用于评价测试样品中的感兴趣的核酸序列的拷贝数的方法，所述方法包括：(a)在所述计算机系统中提供通过核酸序列测定仪由所述测试样品获得的序列读数，所述测试样品包含来自一个或多个基因组的核酸分子；(b)通过所述计算机系统，比对所述测试样品与包含感兴趣的核酸序列的参比基因组的序列读数，从而提供测试序列标签；(c)通过所述计算机系统，确定位于每个bin中的所述测试序列标签的覆盖度，其中所述参比基因组被分成多个bin，并且其中所述覆盖度表示bin中序列标签的丰度；(d)通过所述计算机系统，提供所述感兴趣的核酸序列的全局配置参数，其中所述全局配置参数包含每个bin中的预期覆盖度，并且其中所述预期覆盖度获自未受影响的训练样品的训练集，所述训练样品包含以与所述测试样品基本相同的方式进行测序和比对的核酸分子，所述预期覆盖度呈现在bin之间的变化；(e)通过所述计算机系统，利用在至少所述感兴趣的核酸序列的每个bin中的所述预期覆盖度来调节所述测试序列标签的覆盖度，从而获得所述感兴趣的核酸序列的全局配置参数修正的覆盖度；(f)通过所述计算机系统，并基于...

【技术特征摘要】
【国外来华专利技术】2013.10.21 US 61/893,8301.一种用包括一个或多个处理器和系统存储器的计算机系统来实施的
用于评价测试样品中的感兴趣的核酸序列的拷贝数的方法，所述方法包括：
(a)在所述计算机系统中提供通过核酸序列测定仪由所述测试样品获
得的序列读数，所述测试样品包含来自一个或多个基因组的核酸分子；
(b)通过所述计算机系统，比对所述测试样品与包含感兴趣的核酸序
列的参比基因组的序列读数，从而提供测试序列标签；
(c)通过所述计算机系统，确定位于每个bin中的所述测试序列标签
的覆盖度，其中所述参比基因组被分成多个bin，并且其中所述覆盖度表示
bin中序列标签的丰度；
(d)通过所述计算机系统，提供所述感兴趣的核酸序列的全局配置参
数，其中所述全局配置参数包含每个bin中的预期覆盖度，并且其中所述预
期覆盖度获自未受影响的训练样品的训练集，所述训练样品包含以与所述
测试样品基本相同的方式进行测序和比对的核酸分子，所述预期覆盖度呈
现在bin之间的变化；
(e)通过所述计算机系统，利用在至少所述感兴趣的核酸序列的每个
bin中的所述预期覆盖度来调节所述测试序列标签的覆盖度，从而获得所述
感兴趣的核酸序列的全局配置参数修正的覆盖度；
(f)通过所述计算机系统，并基于GC含量水平与所述全局配置参数
修正的覆盖度之间的关系，来调节全局配置参数修正的覆盖度，从而获得
所述感兴趣的核酸序列的样品-GC-修正的覆盖度，以及
(g)通过所述计算机系统，并基于所述样品-GC-修正的覆盖度，来评
价所述测试样品中所述感兴趣的核酸序列的拷贝数，其中所述样品-GC-修
正的覆盖度针对用于确定所述感兴趣的核酸序列的拷贝数，改善信号水平
和/或降低噪声水平。
2.根据前述任一权利要求所述的方法，进一步包括，在提供序列读数
之前，利用测序仪对来自所述测试样品的核酸进行测序，从而产生所述序
列读数。
3.根据权利要求2所述的方法，进一步包括，在对所述核酸进行测序
之前，使标志物核酸与所述测试样品结合。
4.根据权利要求3所述的方法，其中，所述标志物核酸选自由天然存
在的脱氧核糖核酸、天然存在的核糖核酸、肽核酸(PNA)、吗啉代核酸、
锁核酸、二醇核酸、苏糖核酸，和它们的任意组合组成的组。
5.根据权利要求1所述的方法，其中，所述序列读数获自孕妇的无细
胞DNA和由所述孕妇携带的胎儿的无细胞DNA的序列。
6.根据权利要求1所述的方法，进一步包括施加序列掩码，所述序列
掩码排除在掩蔽bin中的考虑覆盖度。
7.根据权利要求6所述的方法，其中，所述序列掩码通过包括以下步
骤的方法获得：
在所述计算机系统中提供训练集，所述训练集包含来自多个未受影响
的训练样品的序列读数；
通过所述计算机系统，比对所述训练集与所述参比基因组的序列读数，
从而提供所述训练样品的训练序列标签；
通过所述计算机系统，将所述参比基因组分成多个bin；
通过所述计算机系统，针对每个训练样品确定每个bin中训练序列标签
的覆盖度；以及
通过所述计算机系统，产生包含未掩蔽和掩蔽bin的序列掩码，其中每
个掩蔽bin具有超过掩蔽阈值的分布指数，所述分布指数与所述训练样品的
覆盖度的分布有关。
8.根据权利要求7所述的方法，进一步包括，在产生序列掩码之前，
根据每个bin中的预期覆盖度来调节所述训练序列标签的覆盖度，从而获得
所述bin中所述训练序列标签的全局配置参数修正的覆盖度，所述全局配置
参数修正的覆盖度然后用来产生序列掩码。
9.根据权利要求7所述的方法，其中，所述分布指数在数学上与所述
训练样品的覆盖度的方差有关。
10.根据权利要求9所述的方法，其中，所述分布指数是变异系数。
11.根据权利要求6所述的方法，其中，所述感兴趣的核酸序列上的掩
蔽bin具有第一掩蔽阈值并且归一化序列上的掩蔽bin具有第二掩蔽阈值。
12.根据权利要求11所述的方法，其中，所述第一掩蔽阈值和所述第
二掩蔽阈值的组合提供序列掩码，所述序列掩码导致未受影响的样品中的
包括所述感兴趣的序列的区域上比利用其他阈值获得的序列掩码更低的覆
盖度变异。
13.根据权利要求6所述的方法，其中，所述序列掩码包含由跨整个所
述bin内的训练样品的映射质量得分的分布所定义的掩蔽bin和未掩蔽bin，
所述映射质量得分来源于多个未受影响的训练样品与所述参比基因组的比
对序列读数。
14.根据前述任一权利要求所述的方法，其中，在操作(g)中评价所
述测试样品中所述感兴趣的核酸序列的拷贝数包括利用归一化序列的覆盖
度信息，针对所述测试样品，来计算所述感兴趣的核酸序列的序列剂量。
15.根据权利要求14所述的方法，其中，计算所述序列剂量包括所述
感兴趣的核酸序列中的所述测试序列标签的样品-GC-修正的覆盖度除以归
一化序列中的所述测试序列标签的样品-GC-修正的覆盖度。
16.根据权利要求15所述的方法，其中，所述归一化序列包含一个或
多个鲁棒常染色体序列或它们的片段。
17.根据前述任一权利要求所述的方法，其中，在操作(g)中评价所
述测试样品中所述感兴趣的核酸序列的拷贝数包括利用归一化序列的覆盖
度信息，针对所述测试样品，计算所述感兴趣的核酸序列的归一化染色体
值或归一化片段值。
18.根据前述任一权利要求所述的方法，其中，所述测试样品包含来自
两个不同基因组的核酸的混合物。
19.根据权利要求18所述的方法，其中，所述核酸包含无细胞DNA
分子。
20.根据前述任一权利要求所述的方法，其中，所述测试样品包含胎儿
和母体无细胞核酸。
21.根据前述任一权利要求所述的方法，其中，所述测试样品包含来自
两个或更多个胎儿的胎儿无细胞核酸。
22.根据前述任一权利要求所述的方法，其中，所述测试样品包含来自
相同受试者的癌细胞和未受影响的细胞的核酸。
23.根据前述任一权利要求所述的方法，其中，所述评价所述测试样品
中所述感兴趣的核酸序列的拷贝数包括确定完全或部分胎儿非整倍性的存
在或不存在。
24.根据前述任一权利要求所述的方法，进一步包括，考虑到拷贝数变
异的评价，在操作(f)之后，除去样品-GC-修正的覆盖度的离群bin。
25.根据权利要求24所述的方法，其中，所述离群bin包含其中位数
样品-GC-修正的覆盖度离所有所述bin的中位数是大于约1中位数绝对偏差
的bin。
26.根据前述任一权利要求所述的方法，其中，每个bin中的预期覆盖
度包含训练样品的覆盖度的中位数或平均值，并且其中在操作(e)中调节
所述测试序列标签的覆盖度包括每个bin的所述测试序列标签的覆盖度除
以来自所述相应bin的训练样品的覆盖度的中位数或平均值。
27.根据前述任一权利要求所述的方法，其中，在操作(e)中调节所
述测试序列标签的覆盖度包括：(i)在一个或多个鲁棒染色体或区域中的
多个bin中获得在所述测试序列标签的覆盖度和所述预期覆盖度之间的关
系，以及(ii)将所述数学关系应用于所述感兴趣的序列中的bin，以获得
所述全局配置参数修正的覆盖度。
28.根据权利要求27所述的方法，其中
通过线性回归来获得(i)中的关系：
ya＝截距+斜率*gwpa其中ya是在一个或多个鲁棒染色体或区域中所述测试样品的bina的覆
盖度，并且gwpa是针对未受影响的训练样品，bina的全局配置参数；以及
在(ii)中获得所述全局配置参数修正的覆盖度包括如下获得所述全局
配置参数修正的覆盖度zb：
zb＝yb/(截距+斜率*gwpb)-1
其中yb是在所述感兴趣的序列中所述测试样品的binb的观测覆盖度，
并且gwpb是针对未受影响的训练样品的binb的全局配置参数。
29.根据前述任一权利要求所述的方法，其中，来自(e)的所述测试
序列标签的全局配置参数修正的覆盖度包含所述感兴趣的核酸序列中bin
的全局配置参数修正的覆盖度和归一化序列中bin的全局配置参数修正的
覆盖度。
30.根据前述任一权利要求所述的方法，其中，在操作(f)中调节所
述全局配置参数修正的覆盖度包括：
将所述参比基因组中的bin分组为多个GC组，每个GC组包含多个bin，
其中所述多个bin含有测试序列标签并具有类似的GC含量；
针对多个鲁棒常染色体的每个GC组，确定所述全局配置参数修正的覆
盖度的预期值；以及
对于每个GC组，基于相同GC组的确定的预期值，调节所述测试序列
标签的全局配置参数修正的覆盖度，从而获得所述感兴趣的核酸序列上的
测试序列标签的样品-GC-修正的覆盖度。
31.根据权利要求30所述的方法，其中，所述全局配置参数修正的覆
盖度的预期值是多个鲁棒常染色体的GC组的覆盖度的平均值或中位数。
32.根据权利要求30所述的方法，其中，调节所述测试序列标签的全
局配置参数修正的覆盖度包括从所述全局配置参数修正的覆盖度减去所述
预期值。
33.根据前述任一权利要求所述的方法，其中，在操作(f)中的所述
调节所述全局配置参数修正的覆盖度包括：
将线性或非线性数学函数拟合为来自多个鲁棒常染色体的数据点，其
中每个数据点使覆盖度值与GC含量值相关；
基于每个bin的覆盖度的预期值，调节每个bin中的测试序列标签的全
局配置参数修正的覆盖度，所述全局配置参数修正的覆盖度等于考虑中的
bin的GC含量值处所述数学函数的覆盖度值。
34.根据权利要求33所述的方法，其中，调节所述测试序列标签的全
局配置参数修正的覆盖度包括从所述全局配置参数修正的覆盖度减去所述
预期值。
35.根据权利要求30至34中任一项所述的方法，其中，所述鲁棒常染
色...

【专利技术属性】
技术研发人员：达里娅·I·丘多瓦，戴安娜·阿布杜伊瓦，里查德·P·拉瓦，
申请(专利权)人：维里纳塔健康公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人