变体检测的改进制造技术

技术编号:26535720 阅读:45 留言:0更新日期:2020-12-01 14:27
本发明专利技术提供了用于在获自患者的含DNA样品中检测无细胞DNA(cfDNA)(例如循环肿瘤DNA)的计算机执行方法,所述方法包括:(a)提供目的基因座,所述目的基因座包含至少2个代表所述患者之肿瘤的含突变基因座(“患者特异性基因座”);(b)提供序列数据,所述序列数据包含来自所述患者的含DNA样品的多个多核苷酸片段的序列读段,其中所述序列读段跨越步骤(a)的所述至少2个含突变基因座;(c)任选地,执行读段压缩以将所述序列读段分组成读段家族;(d)计算覆盖所述至少2个患者特异性基因座中的一些或全部的突变体等位基因分数,任选地其中通过汇总突变体读段和总读段来计算所述突变体等位基因分数;(e)基于所计算的突变体等位基因分数将所述样品分类为含有或不含靶cfDNA。还提供了相关的方法和系统。

【技术实现步骤摘要】
【国外来华专利技术】变体检测的改进本申请要求2018年3月6日提交的GB1803596.4和2018年11月23日提交的GB1819134.6的优先权,其内容和要素出于所有目的通过引用并入本文。
本专利技术部分地涉及用于检测来自例如无细胞DNA(cell-freeDNA,cfDNA)来源(例如血浆)的变体DNA(例如循环肿瘤DNA(circulatingtumourDNA,ctDNA))的存在或用于在法医学应用、病原体鉴定、农业和环境物种污染监测中检测变体DNA的方法。特别地,本专利技术的方法可用于癌症的诊断、治疗并且尤其是监测,包括在肿瘤切除之后进行的监测。得到本专利技术的工作已从欧盟第七框架计划(EuropeanUnionSeventhFrameworkProgramme)(FP7/2007-2013)获得了授予协议号为337905的基金。
技术介绍
无细胞DNA(cfDNA)(例如循环肿瘤DNA(ctDNA))被越来越多地用作监测疾病负担、对治疗的响应和复发风险的非侵入性工具1,2。治疗之后,患者可能具有低ctDNA水平,并且甚至在晚期疾病中,浓度也可能低于每样品体积数个拷贝3。在这种情况下,由于抽样统计,单个样品可包含少于一个可检测拷贝的给定突变,导致不可检出的ctDNA(即使其平均浓度非零):即ctDNA的假阴性低估1,3,4。下一代测序(next-generationsequencing,NGS)提供了在单个反应中分析血浆中大量突变的可能性。这已通过基于扩增子5,6和用于靶向测序的杂交捕获方法7-9使用标准化组5,9或覆盖对每个患者具有特异性的区域的定制组(bespokepanel)5-7示出。这些方法通常已应用于筛选或监测个体突变。尽管靶向~20个患者特异性基因座,但最近的研究在<50%的早期NSCLC患者中检出ctDNA,并且在大多数后来复发的患者中在紧接着手术后没有检出ctDNA6。这表明有效地实现这一重要临床目标需要更高的灵敏度。已经建议使用覆盖数千个突变的高度多路复用的捕获组(highlymultiplexedcapturepanel)1,7,但是其迄今为止尚未被示出用于ctDNA分析。这些用于ctDNA分析的方法依赖于可变大小的组内的个体突变的鉴定。个体突变的检测受到采样误差和测序背景噪声二者的限制;当信号未达到突变调用(mutationcalling)的预定阈值时,这些信号中的信息就会丢失。Pécuchetetal.,Clin.Chem.,2016,Vol.62,No.11,pp.1492-1503描述了下一代测序的碱基位置误差率分析,以检测循环DNA中的肿瘤突变。WO2016/009224描述了用于检测遗传变体的方法。WO2015/164432描述了用于检测染色体片段中的突变和倍性的方法。WO2013/138510描述了使用高度多路复用的误差抑制的深度测序来测量核酸变体。Ahnetal.,ScientificReports,2017,7:46678|DOI:10.1038/srep46678描述了不对称条码衔接子辅助的重复读段(read)回收和误差校正策略,以检测循环肿瘤DNA中的稀有突变。Kockanetal.,Bioinformatics,2017,Vol.33,No.1,pp.26-34描述了循环肿瘤DNA中单核苷酸变体和插失(indel)的超灵敏检测。WO2014/039556描述了检测稀有突变和拷贝数变异的系统和方法。这些参考文献通常涉及用于降低测序的背景噪声率的方法,包括通过使用独特分子标识符(Uniquemolecularidentifier,UMI)。Newmanetal.,2016描述了对用于检测ctDNA的CAPP-Seq方法的改进,其中采用了集成数字误差抑制(iDESCAPP-Seq)7。然而,iDESCAPP-Seq方法涉及使用位置特异性误差率进行误差校正。这需要确定每个基因座的误差率,这反过来要求在待询问每个基因座处靶向至少1/(位置特异性误差率)个分子。对于降低进行分析以进行误差抑制所需的样品数目的ctDNA检测方法存在着未满足的需求。尽管ctDNA的检测在癌症护理领域显示出了希望,但对于在低ctDNA分数的情况下使信噪比最大化的方法和系统存在着未满足需求。本专利技术试图为这些需求提供解决方案,并提供进一步的相关优点。专利技术简述本专利技术人假设,通过整合覆盖大量突变基因座的信号,即使当ctDNA以非常低的浓度存在时,也有可能减轻采样噪声的影响并获得对ctDNA水平的更灵敏和准确的估计(图1a)。为了更有效地使用ctDNA信息,本专利技术人绕过了个体突变的“调用”,并旨在将来自覆盖多个(例如所有)肿瘤突变基因座的突变体读段的信息进行组合。本专利技术人发现,通过产生并组合来自血浆DNA的覆盖了在患者的肿瘤中突变的多个基因座的大量测序读段,可以实现超越先前方法灵敏度的检测。本专利技术人开发了称为变体读段整合(INtegrationofVAriantReads,INVAR)的算法,其汇总覆盖数百或数千个突变基因座的突变体信号,以评估整个基因组范围内的信号是否显著高于背景或与背景不可区分(图1b)。为了以有效测序的方式为每个患者产生~106个覆盖肿瘤突变基因座的读段,本专利技术人采用了定制组测序(TAiloredPAnelSequencing,TAPAS;图1c)。本专利技术人首先为10位接受全身性抗癌治疗的IV期黑素瘤患者从肿瘤组织测序鉴定了突变。这些突变被用于设计靶向每个患者的673个突变的中位数(四分位数间距“IQR”250-1,209)的杂交捕获诱饵组,其被应用于纵向血浆样品。如本文中详细描述的,使用TAPAS数据和INVAR分析,本专利技术人能够检出低至百万分之一或更低的个体水平的残留ctDNA。在对INVAR方法的进一步优化中,可以将整合进行靶向以聚焦于残留病信号的整合。特别地,本文所述的聚焦INVAR方法通过仅选择来自具有至多2个突变体分子的基因座的信号来汇总微小残留病(minimalresidualdisease,MRD)“MRD样信号”。其次,仅考虑具有被正向和反向(F+R)读段支持的突变的分子对信号的贡献,这构成了误差抑制和尺寸选择步骤二者。第三,对每个基因座的突变体读段基于其突变体等位基因分数进行加权,以突出在肿瘤中更为普遍的突变。第四,然后汇总信号——在一些情况下通过三核苷酸字段(trinucleotidecontext)。第五,使用合适的方法(例如费希尔法(Fisher’smethod)或布朗法(Brown’smethod))对P值进行积分,但仅对前N个类别进行积分,以聚焦于MRD样信号。最终结果是针对残留病检测进行了优化的聚焦INVAR算法。因此,在第一方面中,本专利技术提供了用于在获自患者的含DNA样品中检测和/或定量无细胞DNA(cfDNA)(例如循环肿瘤DNA(ctDNA))的方法(任选地,计算机执行方法),所述方法包括:(a)提供目的基因座,所述目的基因座包含至少2、3、4、5、6、7、8、9、10、50、100、500、本文档来自技高网...

【技术保护点】
1.用于在获自患者的含DNA样品中检测无细胞DNA(cfDNA)例如循环肿瘤DNA(ctDNA)的计算机执行方法,所述方法包括:/n(a)提供目的基因座,所述目的基因座包含至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个代表所述患者之肿瘤的含突变基因座(“患者特异性基因座”);/n(b)提供序列数据,所述序列数据包含来自所述患者的含DNA样品的多个多核苷酸片段的序列读段,其中所述序列读段跨越步骤(a)的所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个含突变基因座;/n(c)任选地,执行读段压缩以将所述序列读段分组为读段家族;/n(d)计算覆盖所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个患者特异性基因座中的一些或全部的突变体等位基因分数,任选地其中根据下式通过汇总突变体读段和总读段来计算所述突变体等位基因分数:/n

【技术特征摘要】
【国外来华专利技术】20180306 GB 1803596.4;20181123 GB 1819134.61.用于在获自患者的含DNA样品中检测无细胞DNA(cfDNA)例如循环肿瘤DNA(ctDNA)的计算机执行方法,所述方法包括:
(a)提供目的基因座,所述目的基因座包含至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个代表所述患者之肿瘤的含突变基因座(“患者特异性基因座”);
(b)提供序列数据,所述序列数据包含来自所述患者的含DNA样品的多个多核苷酸片段的序列读段,其中所述序列读段跨越步骤(a)的所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个含突变基因座;
(c)任选地,执行读段压缩以将所述序列读段分组为读段家族;
(d)计算覆盖所述至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或5000个患者特异性基因座中的一些或全部的突变体等位基因分数,任选地其中根据下式通过汇总突变体读段和总读段来计算所述突变体等位基因分数:



(e)将所述样品分类为:
(i)当发现所述突变体等位基因分数大于或在统计学上显著大于背景测序误差率时:含有cfDNA(例如ctDNA);或
(ii)当未发现所述突变体等位基因分数大于或在统计学上显著大于背景测序误差率时:不含cfDNA(例如ctDNA)或具有未知的cfDNA(例如ctDNA)状态。


2.根据权利要求1所述的方法,其中计算所述突变体等位基因分数的统计显著性包括在考虑包含以下的列联表的情况下进行单侧费希尔精确检验:来自所述样品的突变体读段的数目,来自所述样品的读段的总数,以及从背景测序误差率预期的突变体读段的数目。


3.根据权利要求1或权利要求2所述的方法,其中已经针对所述至少2、3、4、5、6、7、8、9或10个患者特异性基因座中任选地由三核苷酸字段代表的每种碱基替换类别(“突变类别”)确定背景测序误差率,
并且其中对于每种突变类别执行步骤(d)中的突变体等位基因分数计算,
并且其中突变体等位基因统计显著性计算包括对于每种突变类别在考虑该突变类别的背景测序误差率的情况下计算统计显著性,并且将每种突变类别的经计算的统计显著性组合以提供所述样品的全局突变体等位基因分数的统计显著性的量度。


4.根据权利要求3所述的方法,其中所述突变体等位基因统计显著性计算包括进行多个单侧费希尔精确检验,以在考虑该突变类别的背景测序误差率的情况下确定观察到的突变体读段数目的统计显著性,从而产生每种突变类别的p值,并使用经验布朗法将p值组合以提供所述样品的突变体等位基因分数的统计显著性的全局量度。


5.根据权利要求3或权利要求4所述的方法,其中所述突变类别包括以下突变类别中的至少5、6、7、8、9、10、11或全部12种:C>G、G>C、T>G、A>C、C>A、G>T、T>C、A>G、T>A、A>T、C>T和T>C。


6.根据前述权利要求中任一项所述的方法,其中在步骤(b)中获得的包含序列读段的所述序列数据代表定制组测序(TAPAS)序列读段、聚焦外显子序列读段、全外显子序列读段或全基因组序列读段。


7.根据前述权利要求中任一项所述的方法,其中步骤(b)中提供的包含序列读段的所述序列数据代表来自所述患者的基本上无细胞的液体样品的多个DNA片段的序列读段。


8.根据前述权利要求中任一项所述的方法,其中已经通过对直接获自所述患者的肿瘤样品的DNA进行测序或对在高肿瘤疾病负担时获自所述患者的液体例如血浆样品的DNA进行测序获得了所述至少2、3、4、5、6、7、8、9或10个代表所述患者之肿瘤的含突变基因座。


9.根据前述权利要求中任一项所述的方法,其中步骤(b)中获得的包含序列读段的所述序列数据代表在所述患者已经开始对所述肿瘤的治疗过程之后和/或所述患者已经进行了对所述肿瘤的手术切除之后获自所述患者的样品的多个多核苷酸片段的序列读段,
并且其中所述方法用于监测所述肿瘤的存在、生长、预后、消退、治疗响应或复发。


10.根据前述权利要求中任一项所述的方法,其中所述患者患有或曾患有黑素瘤、肺癌、膀胱癌、食管癌、结直肠癌、卵巢癌脑癌和/或乳腺癌。


11.根据前述权利要求中任一项所述的方法,其中所述读段压缩步骤(c)包括基于片段的起始和结束位置以及至少一个分子条码将读段分组为读段家族,
并且其中所有家族成员之间需要有最少60%、70%、80%或90%的共有序列,
并且其中需要至少2、3、4或5的最小家族规模。


12.根据前述权利要求中任一项所述的方法,其中在计算机上对所述序列读段进行尺寸选择,以选择尺寸为115至160bp、115至190bp、250至400bp和440至460bp的读段,以便富集代表ctDNA的那些读段。


13.根据前述权利要求中的任一项所述的方法,其中所述进行读段压缩还包括应用选自以下的至少一个微小残留病(MRD)过滤:
(i)排除具有>2个突变体分子的那些基因座;以及
(ii)仅选择已经在正向(F)和反向(R)两个方向上进行了测序的那些片段。


14.根据权利要求13所述的方法,其中每个基因座的突变体等位基因分数通过肿瘤等位基因分数进行加权,或者其中每个基因座的突变体等位基因数目通过肿瘤分数进行加权。


15.根据权利要求13或权利要求14所述的方法,其中每个基因座的突变体等位基因分数根据下式通过肿瘤等位基因分数进行加权:



其中:
AF字段是给定字段下的等位基因频率;肿瘤AF是如通过对直接获自所述肿瘤的DNA进行测序而确定的所述基因座的等位基因频率;并且MED样基因座是由所述患者的所述肿瘤确定并且随后对其应用了所述MRD过滤的含突变基因座。


16.根据权利要求15所述的方法,其中所述字段是三核苷酸字段,并且其中任选地仅组合具有最显著p值的6种三核苷酸字段。


17.根据权利要求16所述的方法,其中根据下式组合n个最显著的三核苷酸字段p值:
组合的
其中n=1、2、3、4、5、6、8、10或12。


18.根据权利要求14至17中任一项所述的方法,其中根据下式确定全局等位基因分数:





19.用于监测患者中癌症的存在、生长、预后、消退、治疗响应或复发的方法,所述方法包括:
(i)对获自所述患者的含多核苷酸样品进行测序,以获得包含来自所述样品的多个多核苷酸片段的序列读段的序列数据,其中所述序列读段跨越至少2、3、4、5、6、7、8、9、10、50、100、500、1000、2500或至少5000个已被确定为所述患者的癌细胞中的携带突变的基因座;
(ii)使用在步骤(i)中获得的所述序列读段进行权利要求1至18中任一项所述的方法;
(iii)基于至少将所述样品分类为含有cfDNA(例如,ctDNA)、不含cfDNA(例如,ctDNA)...

【专利技术属性】
技术研发人员:埃亚·菲舍尔卡特林·海德尔查尔斯·马西弗洛伦特·穆利埃尼灿·罗森菲尔德克里斯托弗·G·史密斯乔纳森·C·M·万
申请(专利权)人:癌症研究技术有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1