通过分析无细胞DNA确定肿瘤基因拷贝数的方法技术

技术编号:19073816 阅读:27 留言:0更新日期:2018-09-29 16:59
本文提供了方法以改进核酸样品中拷贝数变异的自动检测。这些方法提供了用于确定样品内遗传基因座的基线拷贝数的改进方法,减少了由于遗传基因座的特征、样品制备和探针耗尽导致的变异。

【技术实现步骤摘要】
【国外来华专利技术】通过分析无细胞DNA确定肿瘤基因拷贝数的方法交叉引用本申请要求于2015年12月17日提交的美国临时申请号62/269,051的优先权,其在此通过引用以其整体并入。背景癌症是由个体正常细胞内突变的积累引起的,其中至少一些导致细胞分裂调节不当。这种突变通常包括拷贝数变异,其中肿瘤基因组内基因的拷贝数相对于受试者的非癌性细胞增加或减少。利用检测和表征肿瘤细胞中的拷贝数变异来监测肿瘤的进展,预测患者的结果,和改善治疗选择。然而,常规方法是对细胞样品进行的,细胞样品通常通过痛苦和时间密集的活检获得。这种活检通常也只能检查受试者体内的一小部分肿瘤细胞,因此并不总是代表肿瘤细胞的群体。对于不需要细胞活检、荧光原位杂交(FISH)、比较基因组杂交阵列或定量荧光聚合酶链式反应(PCR)测定的用于肿瘤中拷贝数变异的更简单、更快速的检测存在需求。使用测序数据确定拷贝数变异的一个特殊挑战是,出于与真实拷贝数无关的原因,遗传基因座的覆盖深度会出现变异。例如,即使对于样品中存在的在同样拷贝数的单独遗传基因座,扩增效率、PCR效率和鸟嘌呤-胞嘧啶含量也可导致不同的覆盖深度。为了改善拷贝数检测,需要消除由于这种效应本文档来自技高网...

【技术保护点】
1.一种方法,所述方法包括:(a)获得受试者的无细胞体液样品的脱氧核糖核酸(DNA)分子的测序读段;(b)从所述序列读段生成第一数据集,对于多个遗传基因座中的每个遗传基因座,所述第一数据集包含与测序读段覆盖(“读段覆盖”)相关的定量量度;(c)通过进行饱和平衡校正和探针效率校正来校正所述第一数据集;(d)确定所述第一数据集的基线读段覆盖,其中所述基线读段覆盖与饱和平衡和探针效率有关;并(e)确定所述多个遗传基因座中每个遗传基因座相对于所述基线读段覆盖的拷贝数状态。

【技术特征摘要】
【国外来华专利技术】2015.12.17 US 62/269,0511.一种方法,所述方法包括:(a)获得受试者的无细胞体液样品的脱氧核糖核酸(DNA)分子的测序读段;(b)从所述序列读段生成第一数据集,对于多个遗传基因座中的每个遗传基因座,所述第一数据集包含与测序读段覆盖(“读段覆盖”)相关的定量量度;(c)通过进行饱和平衡校正和探针效率校正来校正所述第一数据集;(d)确定所述第一数据集的基线读段覆盖,其中所述基线读段覆盖与饱和平衡和探针效率有关;并(e)确定所述多个遗传基因座中每个遗传基因座相对于所述基线读段覆盖的拷贝数状态。2.根据权利要求1所述的方法,其中对于多个遗传基因座中的每个遗传基因座,所述第一数据集包含所述遗传基因座的鸟嘌呤-胞嘧啶含量(“GC含量”)相关的定量量度。3.根据权利要求2所述的方法,包括在(c)之前从所述第一数据集去除为高变异遗传基因座的遗传基因座,其中去除包括:(i)拟合涉及鸟嘌呤-胞嘧啶含量相关的定量量度和所述遗传基因座的测序读段覆盖的定量量度的模型;和(ii)从所述第一数据集去除至少10%的遗传基因座,其中去除遗传基因座包括去除与所述模型差异最大的遗传基因座的至少10%,由此提供基线定线遗传基因座的第一数据集。4.根据权利要求3所述的方法,包括去除至少45%的所述遗传基因座。5.根据权利要求3所述的方法,其中进行饱和平衡校正包括通过以下将基线定线遗传基因座的所述第一数据集转换为饱和校正数据集:(i)对于每个遗传基因座,从基线定线遗传基因座的第一数据集确定来源于所述遗传基因座的来自样品的DNA分子链在测序读段内被代表的概率相关的定量量度;(ii)通过将基线定线遗传基因座的所述第一数据集中的读段覆盖与基线定线遗传基因座的所述第一数据集的GC含量和与基线定线遗传基因座的所述第一数据集中的来源于每个基因座的DNA链在所述测序读段内被代表的概率有关的定量量度相关联,确定所述读段覆盖的第一转换;和(iii)将所述第一转换应用于来自基线定线遗传基因座的第一数据集的每个遗传基因座的读段覆盖以提供饱和校正数据集,其中所述饱和校正数据集包括基线定线遗传基因座的第一数据集的转换的读段覆盖的第一集。6.根据权利要求5所述的方法,其中确定所述第一转换包括(i)确定与基线定线遗传基因座的所述第一数据集的读段覆盖的中心趋势有关的量度;(ii)基于所述遗传基因座的GC含量和与来源于所述遗传基因座的DNA链在所述测序读段内被代表的概率相关的定量量度,确定拟合与基线定线遗传基因座的所述第一数据集的读段覆盖的中心趋势有关的量度的函数;和(iii)对于基线定线遗传基因座的所述第一数据集的每个遗传基因座,确定由所述函数预测的读段覆盖与所述读段覆盖的差异,其中所述差异为转换的读段覆盖。7.根据权利要求6所述的方法,其中所述函数是表面近似。8.根据权利要求7所述的方法,其中所述表面近似是二维二次多项式。9.根据权利要求5所述的方法,其中进行探针效率校正包括通过以下转换所述饱和校正数据集为探针效率校正数据集:(i)从所述饱和校正数据集去除相对于转换的读段覆盖的所述第一集为高变异遗传基因座的遗传基因座,从而提供基线定线遗传基因座的第二数据集;(ii)确定与基线定线遗传基因座的所述第二数据集的探针效率相关的转换的读段覆盖的第一集的第二转换;和(iii)利用所述第二转换将基线定线遗传基因座的所述第二数据集的转换的读段覆盖的所述第一集进行转换,从而提供探针效率校正数据集,其中所述探针效率校正数据集包括基线定线遗传基因座的所述第二数据集的转换的读段覆盖的第二集。10.根据权利要求9所述的方法,其中从所述第一数据集去除为高变异遗传基因座的遗传基因座包括:(i)拟合涉及所述GC含量和所述饱和校正数据集的转换的读段覆盖的第一集的模型;和(ii)从饱和校正数据集去除至少10%的遗传基因座,其中去除遗传基因座包括去除与所述模型差异最大的遗传基因座,由此提供基线定线遗传基因座的第二数据集。11.根据权利要求10所述的方法,包括去除至少45%的所述遗传基因座。12.根据权利要求9所述的方法,其中所述探针效率通过对一种或更多种参考样品进行饱和平衡校正来确定,其中所述探针效率是通过进行所述饱和平衡校正获得的转换的读段覆盖。13.根据权利要求12所述的方法,其中所述一种或更多种参考样品是来自无癌症的受试者的无细胞体液样品。14.根据权利要求12所述的方法,其中所述一种或更多种参考样品是来自无癌症的受试者的无细胞体液样品,其中对应的遗传基因座未经历拷贝数改变。15.根据权利要求12所述的方法,其中确定所述第二转换包括(i)将对来自所述一种或更多种参考样品的遗传基因座确定的探针效率拟合到来自基线定线遗传基因座的第二数据集的读段覆盖的第一集;(ii)将基线定线遗传基因座的所述第二数据集的每个遗传基因座的转换的读段覆盖除以基于(i)的拟合的预测的探针效率。16.根据权利要求5所述的方法,还包括:(g)通过将基线定线遗传基因座的所述第二数据集的转换的读段覆盖与基线定线遗传基因座的所述第二数据集的GC含量和与来源于基线定线遗传基因座的所述第二数据集中的每个基因座的DNA链在所述测序读段内被代表的概率有关的定量量度相关联,确定转换的读段覆盖的所述第二集的第三转换;(h)将所述第三转换应用于转换的读段覆盖的第二集以提供第四数据集,其中所述第四数据集包括转换的定量读段覆盖的第三集。17.根据权利要求1所述的方法,其中所述无细胞体液样品的DNA使用与来自遗传基因座...

【专利技术属性】
技术研发人员:埃尔米·埃尔图凯阿米尔阿里·塔拉萨兹达里娅·丘多瓦戴安娜·阿布杜伊瓦
申请(专利权)人:夸登特健康公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1