用于提高突变评估准确性的方法和装置制造方法及图纸

技术编号:17100899 阅读:32 留言:0更新日期:2018-01-21 12:02
提供了涉及包括在基于一组序列读取结果识别目标区域序列中并入等分样品的可行模板计数的基于计算机的变异识别模型的方法、系统、试剂盒、计算机可读介质和装置的实施方案。

Methods and devices used to improve the accuracy of mutation evaluation

A computer-based variant identification model is proposed, which involves counting the feasible templates in the sequence of target regions based on a sequence of read results, and the implementation scheme of the system, kit, computer-readable medium and device.

【技术实现步骤摘要】
【国外来华专利技术】用于提高突变评估准确性的方法和装置相关申请的交叉引用本申请要求2015年2月26日提交的美国临时专利申请第62/120923号的优先权权益,其整体通过引用并入本文。
技术介绍
A.
本专利技术一般地涉及核酸分析领域,更具体地涉及将可行模板计数参数并入基于计算机的变异识别模型,其可以与涉及核酸分子的化学和/或物理操作的分析结合使用。实施方案包括涉及利用可行模板计数评估以提高变异识别准确性的变异识别算法的方法和产品。B.相关技术说明许多临床样本可用性的限制推动了对低DNA输入到分子分析中的需要。例如,下一代测序(NGS)是尖端技术,其可以推进深度分子图谱所需的输入DNA材料的界限,特别是在癌症中(Beltran等人,2013,Menon等人,Tuononen等人,2013,Hadd等人,2013)。NGS具有精确地检测点突变、结构变异、拷贝数变化、甲基化状态和基因表达的能力,是多层面的且通用的工具;然而,在肿瘤样品的NGS中的高灵敏度、高特异性单核苷酸变异(SNV)识别是具有挑战性的问题。输入样品通常是异质的,其含有正常材料和肿瘤材料的混合物,其中所述肿瘤材料本身可以由细胞的异质群体组成。因此,任何变异检测算法实现高灵敏度并具有很低变异频率以避免漏掉真正的突变是至关重要的。变异识别进一步受到将背景噪声提高至生物变异的同等水平的低质和低量输入的挑战。因此,用于SNV识别的任何方法还必须实现高特异性,以避免过度识别样品。特别挑战类型的输入样品包括福尔马林固定石蜡包埋(FFPE)的肿瘤DNA。FFPE表现出对突变检测的双重挑战,即对于抵抗PCR扩增的低模板输入量连同来自固定和包埋处理的模板损伤的要求。此外,低质量FFPEDNA可以触发等位基因丢失和产生不准确的结果(Didelot等人,2013,Akbari等人,2005)。为了着手解决一些建立可以指导可靠测序结果的质量控制指标的挑战,实体如临床测试下一代测序标准(NEX-StoCT)工作组(由疾病控制中心协调)和美国病理学家学会已经提出了用于保证质量NGS数据的标准和解释。例如,Nex-StoCT推荐了一系列关于NGS的后分析QC指标,其包括覆盖的深度和均匀性、转换/颠换比、碱基识别质量评分、定位质量及其他(Gargis等人,2012)。迄今为止,已经公开许多方法用于变异识别。这些方法通常分为两类:仅肿瘤和匹配的肿瘤-正常。因为匹配的肿瘤-正常算法能够区分作为种系事件的生物突变或“真正”突变和作为体细胞事件的真正突变,所以它们是有吸引力的。然而,在临床实践中匹配样品测序更昂贵,往往不能获得。因此,拥有可以无需相应正常样品而进行、并仍实现高灵敏度和特异性的方法变得至关重要。一些团体已经建议使用来自同一组织、跨越多个种群成员或遗传相关对象的多个基因组序列的多个样品的同时评价来评价一个或更多个假设正确的概率(美国公开2012/0208706、2014/0057793和2014/0058681)。其他人已经建议使用为基因序列读取而计算的读取属性来评估读取结果(reads)(EP2602734A1)。还建议了通过样品DNA的选择性验证区域验证NGS输出(EP2602734A1)。几个团体最近已经描述了专门开发用于DNA样品中低水平的体细胞突变的方法(Hadd等人,2013年,Forshew等人,2012年,Yost等人,2012),包括适应样品DNA“噪音”的方法,例如在转换突变中的噪音升高(Hadd等人,2013年)。然而,仍有改进测序算法和NGS变异识别算法的需求。
技术实现思路
实施方案包括克服上述限制等的装置、系统、计算机可读介质、试剂盒以及方法。本公开重点在于将样品的可行模板计数并入后测序分析中样品的来减少样品输入需求,同时保持高灵敏度和阳性预测值(PPV)。其他改进包括靶向DNA或RNA基因座和使操作者在很短时间能够从提取的核酸进行到测序,包括质量控制步骤。此外,预测序质量控制与后测序分析的整合利用难以或不可能仅从测序数据推断的样品特异性细节、例如核酸的完整性或核酸输入到文库制备中的扩增拷贝数丰富了序列分析。本文公开的一些实施方案涉及一种方法,其包括定量包含核酸的样品中可行的模板计数;富集核酸的目标区域以创建用于测序的文库;从文库中生成序列数据,其中所述数据包括多个序列读取结果;基于一组序列读取结果将并入了样品的可行模板计数的基于计算机的变异识别模型用于识别目标区域序列的分析序列数据。预期的是变异识别模型可以通过能够访问测序数据并且执行在变异识别模型中包含的指令的计算设备来实现。在一些实施方案中,所述变异识别模型被配置成识别相对于参照序列的样品核酸中的一种或更多种序列变异。通过变异识别模型识别的序列变异包括但不限于单核苷酸变异、插入、缺失、多核苷酸取代、结构变异、基因组拷贝数变化、基因组重排、剪接变异和/或RNA变异。变异可以代表种系突变、体细胞突变或两者。在一些实施方案中,一种或更多种序列变异与疾病状态和/或疾病倾向相关。预期本文公开的方法可以用于多种疾病或病症的诊断和/或预后或用于确定个体发展疾病或病症的倾向或可能性。疾病或病症可以包括具有遗传组分的那些疾病或病症和/或个体核酸序列信息在疾病或病症的诊断、预后或开方治疗中会有用的那些疾病或病症。还可以预期本文公开的方法可以用于预测个体的药物基因组学应答,例如对药物的耐药性、敏感性和/或毒性。在一些实施方案中,变异识别模型被配置为识别定量的目标特异性拷贝数变异。预期在本文公开的一些实施方案中,变异识别模型测序和/或变异识别的核酸可以来源于各种生物来源和/或合成来源。在一些实施方案中,核酸包括来自生物样品的DNA、RNA和/或总核酸。在一些实施方案中,核酸包括基因组DNA。核酸可以从其而来的来源的非限制性实例包括:福尔马林固定石蜡包埋的组织、通过细针抽吸收集的组织、冷冻组织、血清、血浆、全血、循环肿瘤细胞、通过激光捕获显微切割收集的组织、芯针活组织检查、脑脊液、唾液、口腔拭子、粪便样品和尿。在一些实施方案中,样品中的核酸是异质的。这种异质核酸可以包括相对大量序列与样品中的其它分子相同、但在一些位置变化的核酸分子。包含异质核酸的组合物和样品可以例如由基因组DNA样品中基因的不同等位基因在样品中的存在产生;由来源于不同源的样品中的核酸产生,例如当一些核酸来源于已经出现体细胞突变的细胞,而一些来源于没有出现相同体细胞突变的细胞;或者,在来自于存在于样品中的不同剪接变异的mRNA的情况下。在一些实施方案中,样品中的核酸来自癌细胞和非癌细胞的混合物。在一些实施方案中,包含用于生成测序文库的核酸的样品具有低于约10000、9000、8000、7000、6000、5000、4000、3000、2000、1000、500、400、300、200、100或50的可行模板计数。在某些方面,可行的模板计数为10、20、30、40、50、100至150、200、300、400、500、1000、2000或更多,包括其间的所有值和范围。在一些实施方案中,定量可行模板计数包括进行定量的PCR分析。本文公开的一些实施方案涉及在样品中富集核酸的某些目标区域以产生测序文库。文库是包含进入测序反应的输入的核酸分子的集合。文库分子可以例如作本文档来自技高网
...
用于提高突变评估准确性的方法和装置

【技术保护点】
一种用于确定核酸序列的试剂盒,其包括:(a)定量PCR试剂组,其能够用于确定样品中核酸的可行模板计数;(b)多重PCR试剂组,其能够用于扩增样品中的多个目标区域并生成用于测序的核酸分子的文库;(c)标记PCR试剂组,其能够用于附加序列到文库中的核酸分子上;(d)能够用于纯化和/或归一化文库中的核酸分子用于在测序前进一步扩增的试剂组;(e)非暂时性机器可读存储介质,其包含当被计算设备执行时引起计算设备通过进行至少以下步骤以识别序列变异的指令:(i)访问与核酸分子文库相关的序列数据;和(ii)通过考虑与样品相关的可行模板计数来分析序列数据以识别序列变异。

【技术特征摘要】
【国外来华专利技术】2015.02.26 US 62/120,9231.一种用于确定核酸序列的试剂盒,其包括:(a)定量PCR试剂组,其能够用于确定样品中核酸的可行模板计数;(b)多重PCR试剂组,其能够用于扩增样品中的多个目标区域并生成用于测序的核酸分子的文库;(c)标记PCR试剂组,其能够用于附加序列到文库中的核酸分子上;(d)能够用于纯化和/或归一化文库中的核酸分子用于在测序前进一步扩增的试剂组;(e)非暂时性机器可读存储介质,其包含当被计算设备执行时引起计算设备通过进行至少以下步骤以识别序列变异的指令:(i)访问与核酸分子文库相关的序列数据;和(ii)通过考虑与样品相关的可行模板计数来分析序列数据以识别序列变异。2.根据权利要求1所述的试剂盒,其中所述定量PCR试剂组包含能够用于制备适合于定量PCR的缓冲剂的母料混合物。3.根据权利要求1或2所述的试剂盒,其中所述定量PCR试剂组包含用于扩增样品中核酸区域的引物。4.根据权利要求1至3中任一项所述的试剂盒,其中所述多重PCR试剂组包含配置为扩增与疾病状态或疾病倾向相关的至少5、10、15、20、25、30、35、40、45或50个基因组区域的引物。5.根据权利要求4所述的试剂盒,其中所述基因组区域覆盖与疾病状态或疾病倾向相关的至少50、100、200、300、400、500、600、700或800个基因座。6.根据权利要求4或5所述的试剂盒,其中所述疾病是癌症。7.根据权利要求1至6中任一项所述的试剂盒,考虑与样品相关的可行模板计数包括基于可行模板计数的值调整序列假设为真实的概率。8.根据权利要求1至7中任一项所述的试剂盒,考虑与样品相关的可行模板计数包括如果变异模板计数低于阈值,则降低序列假设为真实的概率。9.根据权利要求1至8中任一项所述的试剂盒,考虑与样品相关的可行模板计数包括如果变异模板计数高于阈值,则升高序列假设为真实的概率。10.根据权利要求1至9中任一项所述的试剂盒,其中考虑与样品相关的可行模板计数包括基于可行模板计数的值调整分配给变异识别模型特征的权重。11.根据权利要求1至10中任一项所述的试剂盒,其中考虑与样品相关的可行模板计数包括根据可行模板计数调整观察非参考碱基的先验概率。12.根据权利要求1至11中任一项所述的试剂盒,其中考虑与样品相关的可行模板计数包括并入可行模板计数作为模型特征。13.根据权利要求1至12中任一项所述的试剂盒,其中考虑与样品相关的可行模板计数包括如果可行模板计数位于预定义的区间内,则使用不同组的模型特征来识别样品中的序列变异。14.根据权利要求1至13中任一项所述的试剂盒,其中考虑与样品相关的可行模板计数包括如果可行模板计数位于预定义的区间内,则使用替代的分类器来识别序列变异。15.一种识别基因组DNA中变异的方法,其包括:(a)进行定量PCR分析以确定包含核酸的样品中的可行模板浓度;(b)使用所述可行模板浓度来计算样品等分试样中的可行模板计数;(c)使用所述等分试样作为模板进行PCR反应以产生富集感兴趣的核酸片段的文库;(d)从文库生成序列数据;和(e)使用基于计算机的变异识别模型分析序列数据,所述变异识别模型并入可行模板计数以识别基因组DNA中的序列变异,其中并入可行模板计数包括配置模型以进行以下步骤中的一个或更多个:基于可行模板计数的值,调整序列假设为真实的概率;如果变异模板计数低于阈值,则降低序列假设为真实的概率;如果变异模板计数高于阈值,则升高序列假设为真实的概率;基于可行模板计数的值,调整分配给模型特征的权重;根据可行模板计数,调整观察非参考碱基的先验概率;并入可行模板计数作为模型特征;如果可行模板计数位于预定义的区间内,则识别样品中的序列变异;和/或如果可行模板计数位于预定义的区间内,则使用替代的分类器来识别核酸中的序列变异。16.一种改善核酸样品的变异识别质量的方法,其包括:(i)确定待测序的样品中的功能性拷贝的量,和(ii)基于所述样品中的功能性拷贝的量,确定待用于测序的样品的量。17.根据权利要求16所述的方法,其中所述功能性拷贝是RNA功能性拷贝。18.根据权利要求16所述的方法,其中在所述待用于测序的样品的确定量包括至少100、200、300、400、或500个功能性拷贝。19.一种方法,其包括:(a)定量包含核酸的样品中的可行模板计数;(b)富集核酸的目标区域以产生测序文库;(c)从所述文库生成序列数据,其中所述数据包括多个序列读取结果;(d)使用基于计算机的变异识别模型分析序列数据,所述变异识别模型在基于一组序列读取结果识别目标区域序列中并入样品的可行模板计数。20.根据权利要求19所述的方法,其中所述变异识别模型被配置为识别相对于参照序列样品核酸中的一种或更多种序列变异。21.根据权利要求20所述的方法,其中所述一种或更多种序列变异包括单核苷酸变异、插入、缺失、多核苷酸取代、结构变异、基因组拷贝数变化、基因组重排、剪接变异和/或RNA变异。22.根据权利要求20或21所述的方法,其中所述一种或更多种序列变异与疾病状态和/或疾病倾向相关。23.根据权利要求20至22中任一项所述的方法,其中所述序列变异与药物基因组应答如对药物的耐药性、敏感性和/或毒性相关。24.根据权利要求19至23中任一项所述的方法,其中所述变异识别模型被配置为识别定量目标特异性拷贝数变化。25.根据权利要求19至24中任一项所述的方法,其中所述核酸包括来自生物样品的DNA、RNA和/或总核酸。26.根据权利要求19或25所述的方法,其中所述核酸包括基因组DNA。27.根据权利要求19至26中任一项所述的方法,其中所述核酸来源于以下中的一种或更多种:福尔马林固定石蜡包埋组织、通过细针抽吸收集的组织、冷冻组织、血清、血浆、全血、循环肿瘤细胞、通过激光捕获显微切割收集的组织、芯针活组织检查、脑脊液、唾液、口腔拭子、粪便样品和尿。28.根据权利要求19至27中任一项所述的方法,其中所述样品中的核酸是异质的。29.根据权利要求19至28中任一项所述的方法,其中所述样品中的核酸来自癌细胞和非癌细胞的混合物。30.根据权利要求19至29中任一项所述的方法,其中所述样品具有低于约10000、9000、8000、7000、6000、5000、4000、3000、2000、1000、500、400、300、200、100或50的可行模板计数。31.根据权利要求19至30中任一项所述的方法,其中定量所述可行模板计数包括进行定量PCR分析。32.根据权利要求19至31中任一项所述的方法,其中富集核酸的目标区域包括使用能够在目标区域退火并延伸的一种或更多种DNA引物对进行PCR反应。33.根据权利要求32所述的方法,其中所述PCR反应是多重反应。34.根据权利要求19至33中任一项所述的方法,其中富集核酸的目标区域包括进行捕获杂交过程。35.根据权利要求19至34中任一项所述的方法,其中从文库生成序列数据包括平行地获得多个序列读取结果。36.根据权利要求19至35中任一项所述的方法,其中所述序列数据包括对于文库的每个部分的多个序列读取结果。37.根据权利要求19至36中任一项所述的方法,其还包括将序列数据与参考序列比对。38.根据权利要求19至37中任一项所述的方法,其中所述变异识别模型被配置为基于可行模板计数的值调整序列假设为真实的概率。39.根据权利要求38所述的方法,其中所述变异识别模型配置为如果变异模板计数低于阈值,则降低序列假设为真实的概率。40.根据权利要求38所述的方法,其中所述变异识别模型配置为如果变异模板计数高于阈值,则升高序列假设为真实的概率。41.根据权利要求19至40中任一项所述的方法,其中所述变异识别模型配置为基于可行模板计数的值调整分配给模型特征的权重。42.根据权利要求38至41中任一项所述的方法,其中所述变异识别模型配置为比较序列数据和参考序列。43.根据权利要求42所述的方法,其中所述变异识别模型配置为根据可行模板计数调整观察非参考碱基的先验概率。44.根据权利要求19至43中任一项所述的方法,其中所述变异识别模型配置为并入可行模板计数作为模型特征。45.根据权利要求19至44中任一项所述的方法,其中所述变异识别模型...

【专利技术属性】
技术研发人员:罗伯特·蔡格勒丹尼斯·维利布莱恩·海恩斯盖瑞·莱瑟姆
申请(专利权)人:奥斯瑞根公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1