序列变异识别的验证方法和系统技术方案

技术编号:21959074 阅读:58 留言:0更新日期:2019-08-24 22:22
提供了用于验证变异识别的方法和系统。接收沿目标基因组序列的样本读长的序列数据。接收沿所述目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示。所述方法和系统获得在一个或多个基线基因组序列内的指定位置的基线变异频率,确定所述目标基因组序列在所述指定位置的样本变异频率,分析在所述指定位置的基线和样本变异频率以获得质量得分,以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。

Validation Method and System for Sequence Variation Recognition

【技术实现步骤摘要】
【国外来华专利技术】序列变异识别的验证方法和系统相关申请本申请涉及并要求2017年1月17日提交的标题为“序列变异识别的验证方法和系统”的美国临时专利申请第62/447,076号,以及2016年11月16日提交的标题为“提高变异识别准确性的方法和系统”的美国临时专利申请第62/422,841号优先权,其全部内容中的完整主题通过引用并入本文。
本文主题一般涉及用于分析测序操作的系统和方法,以及更特别地涉及验证与测序操作相关的变异识别。
技术介绍
现今癌症治疗技术正在从包治百病的方法转变。综合诊断方法对检测DNA变异的方法提出了挑战。DNA检测方法的非限制实施例包括Sanger测序、免疫组化(IHC)、荧光原位杂交(FISH)以及定量PCR(qPCR)。一些检测方法每次分析一个或几个基因变化的DNA。然而,随着已知的推动癌症进展的DNA改变的数量继续增长,提出了一种在一次测序操作中分析越来越多的基因变化的DNA的新方法。下一代测序技术(NGS)提供了使用一个样本评估多个基因中变异的能力。为此,已经提出了一种提供基于NGS检验(测定)的杂交捕获的系统,其靶向多个癌症基因(例如,超过100个癌症基因),用于在NextSeqTM和HiSeqTM平台测序。NGS检验包括用于识别单核苷酸变异(SNVs)、小插入和缺失(indels)、多核苷酸变异(MNVs)、基因扩增(CNVs)的DNA工作流程。NGS检验还包括用于识别剪接变异和基因融合的RNA工作流程。当确定样本核酸序列沿序列上的一个或多个碱基对位置与参考序列不同时,识别变异。在对单个样本测序的时,可以在同一时间评估来自不同基因的DNA和RNA改变。正在发展的生物信息学分析技术在快速周转时间内实现变异识别。除了其它方面,该技术包括对准器和变异识别器。比对过程能够对齐长的插入和缺失以克服具有短的读长长度的鸟枪法测序挑战。此外,NGS检验利用多种样本制备技术,其中一个例子是福尔马林固定、石蜡包埋(FFPE)。当目标DNA具有低丰度和/或可能已经降解时,FFPE样本为检测DNA变异带来了另一个困难。然而,当前提出的测序技术在与变异识别方面存在假阳性。例如,该技术可能错误地确定在样本序列的特定位置(碱基对)存在变异和/或错误地识别变异类型(通常称为假阳性)。系统错误可能导致假阳性,诸如由于FFPE伪影、测序错误或PCR错误。仍然需要能够在单个样本中以简单且经济的方式同时检查多种类型的DNA变异,而不会声明过多的假阳性的测序方法和系统。定义本申请中引用的所有文献及类似材料,包括但不限于专利、专利申请、文章、书籍、论文和网页,无论这些文献及类似材料的格式如何,其全部内容通过引用明确地并入。如果一个或多个并入的文献及类似材料与本申请不同或矛盾,包括但不限于定义的术语,术语用法,所描述的技术等,以本申请为准。本文所使用的,以下术语具有所显示的含义。术语“染色体”是指活细胞的携带遗传的基因载体,其由包含DNA和蛋白质组分(尤其是组蛋白)的染色质链衍生得到。本文采用传统的国际公认的个体人类基因组染色体编号系统。术语“位点”是指参考基因组上的独特位置(例如,染色体ID、染色体位置和方向)。在一些实施方式中,位点可以是序列上的残基、序列标签或片段的位置。术语“基因座”可用于指参考染色体上核酸序列或多态性的特定位置。本文的术语“样本”是指通常来自包括核苷酸或包含至少一个核苷酸序列的核苷酸混合物的生物体液、细胞、组织、器官或生物体的,用于测序或定相的样本。这样的样本包括但不限于痰/口腔液、羊水、血液、血液部分、细针活检样本(例如,外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养和任意其他组织或细胞制剂,或其部分或衍生物或从中分离的。虽然所述样本通常取自人类受试者(例如,患者),但所述样本可以从任意具有染色体的生物体中采集,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。从生物来源或预处理后改变样本特征获得的样本可以直接使用。例如,这样的预处理可以包括从血液制备血浆,稀释粘稠液体等。预处理方法还可以包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。术语“序列”包括或代表彼此连接的核苷酸链。所述核苷酸可以基于DNA或RNA。应该理解,一个序列可以包括多个子序列。例如,单个序列(例如,PCR扩增子)可以具有350个核苷酸。样本读长可以包括这350个核苷酸内的多个子序列。例如,所述样本读长可以包括具有例如20-50个核苷酸的第一和第二侧翼子序列。所述第一和第二侧翼子序列可以位于具有相应子序列(例如,40-100个核苷酸)的重复区段的任意一侧。每个所述侧翼子序列可以包括(或包括部分)引物子序列(例如,10-30个核苷酸)。为了便于阅读,术语“子序列”将被称为“序列”,但应理解,两个序列在共同链上不一定彼此分开。为了区分本文所述的多个序列,可以给序列赋予不同的标签(例如,靶序列、引物序列、侧翼序列、参考序列等)。其他术语,诸如“等位基因”,可以给予不同的标记以区分相似的对象。术语“双末端测序”是指对靶片段的两个末端进行测序的测序方法。双末端测序可以促进基因组重排和重复片段,以及基因融合新的转录本的检测。PCT公开号WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公开US2009/0088327中所描述的双末端测序的方法,其每一个通过引用并入本文。在一实施例中,可以执行如下一系列操作;(a)生成核酸簇;(b)核酸线性化;(c)杂交第一测序引物并进行延伸、扫描和去封闭的重复循环,如上所述;(d)通过合成互补拷贝“转化”流动单元表面的靶核酸;(e)重新合成的链线性化;和(f)杂交第二测序引物并进行延伸、扫描和去封闭的重复循环,如上所述。如上所述,可以通过提供试剂进行转化操作,用于桥式扩增的单个循环。术语“参考基因组”或“参考序列”是指任意生物的任意特定已知基因组序列,其来自受试者的可以用于参考识别的序列,无论是部分的还是完整的。例如,在ncbi.nlm.nih.gov的国家生物技术信息中心发现了用于人受试者以及许多其他生物的参考基因组。“基因组”是指以核酸序列表达的生物或病毒的完整遗传信息。基因组包括基因和DNA的非编码序列。参考序列可以大于与其对齐的读长。例如,它可以是至少大约100倍、或者至少大约1000倍、或者至少大约10,000倍、或者至少大约105倍、或者至少大约106倍、或者至少大约107倍。在一实施例中,参考基因组序列是全长人类基因组的序列。在另一实施例中,参考基因组序列限于特定的人染色体,例如染色体13。在一些实施方式中,参考染色体是来自人类基因组版本hg19的染色体序列。这些序列可以称为染色体参考序列,但术语参考基因组旨在涵盖这些序列。参考序列的其他实施例包括其他物种的基因组,以及任意物种的染色体、亚染色体区域(例如链)等。在多个实施方式中,参考基因组是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可以取自特定个体。术语“读长”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读长”可以指样本读长和/或参考读长。通常,虽然不是必需的,但读长表示样本文档来自技高网...

【技术保护点】
1.一种用于验证变异识别的计算机实现的方法,所述方法包括:在执行程序指令的一个或多个处理器的控制下,接收测序数据,所述测序数据包括沿目标基因组序列的具有相应核苷酸序列的样本读长;接收沿目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示;获得在一个或多个基线基因组序列内的所述指定位置的基线变异频率;获得在所述目标基因组序列的所述指定位置的样本变异频率;分析在所述指定位置的所述基线和所述样本变异频率,以获得质量得分;以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。

【技术特征摘要】
【国外来华专利技术】2016.11.16 US 62/422,841;2017.01.17 US 62/447,0761.一种用于验证变异识别的计算机实现的方法,所述方法包括:在执行程序指令的一个或多个处理器的控制下,接收测序数据,所述测序数据包括沿目标基因组序列的具有相应核苷酸序列的样本读长;接收沿目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示;获得在一个或多个基线基因组序列内的所述指定位置的基线变异频率;获得在所述目标基因组序列的所述指定位置的样本变异频率;分析在所述指定位置的所述基线和所述样本变异频率,以获得质量得分;以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。2.如权利要求1所述的方法,其中所述分析操作包括获得所述样本变异频率与所述基线变异频率的分布之间的关系,所述质量得分基于所述关系。3.如权利要求1所述的方法,其中所述分析操作包括相对于所述基线变异频率的分布索引所述样本变异频率。4.如权利要求3所述的方法,其中关系基于非参数Wilcoxon秩和检验。5.如权利要求1所述的方法,其中所述基线变异频率指示沿所述基线基因组序列的相应位置的背景噪声程度。6.如权利要求1所述的方法,其中所述验证还包括将所述质量得分与阈值进行比较;并且当所述质量得分超过所述阈值时,声明所述潜在变异识别为有效变异识别。7.如权利要求1所述的方法,其中所述基线变异频率来源于与一种以上类型的等位基因相关的多个所述基线基因组序列。8.如权利要求1所述的方法,还包括接收测序数据,所述测序数据包括沿所述基线基因组序列的核苷酸序列的多个参考读长,以及确定在所述指定位置的所述参考读长的所述基线变异频率。9.如权利要求8所述的方法,其中确定所述基线变异频率还包括:a.从当前碱基对窗口内的一组位置的所述参考读长中接收所述测序数据;b.识别当前所述碱基对窗口内的所述一组位置中的一个或多个位置的候选变异频率;c.选择所述候选变异频率中的一个作为所述参考读长内所述指定位置的所述基线变异频率;以及d.沿所述基线基因组序列移动所述碱基对窗口并重复在a、b和c的操作。10.一种用于验证变异识别的计算机实现的方法,所述方法包括:在一个或多个处理器的控制下,执行程序指令以接收目标基因组序列的潜在变异识别的指示;接收测序数据,所述测序数据包括沿所述目标基因组序列的样本和核苷酸原始片段的读长,所述读长包括对应于沿所述目标基因组序列的指定位置的核苷酸序列的样本片段的样本读长;相对于基线基因组序列的所述指定位置的基线变异频率,分析所述目标基因组序列的所述指定位置的样本变异频率,以获得质量得分;以及确定以下至少一项:A)所述原始片段是否确认潜在变异识别;B)所述样本读长是否为所述样本片段提供预定量的覆盖范围;以及C)所述潜在变异识别是否与预定义群体中显示的先前变异识别匹配;以及根据所述质量得分和所述确定操作验证所述潜在变异识别。11.如权利要求10所述的方法,其中所述确定包括操作A),并且操作A)包括:识别指示支持变异识别的所述原始片段;获得指示所述支持变异识别的所述原始片段的加权片段得分;以及将所述加权片段得分与所述原始片段阈值进行比较,以确定是否确认所述潜在变异识别。12.如权利要求10所述的方法,其中所述确定包括操作A),并且其中所述原始片段对应于双链体拼接片段、单链体拼接片段、双链体未拼接片段或单链体未拼接片段中的至少一个。13.如权利要...

【专利技术属性】
技术研发人员:陈晓赵晨杰西卡·戈登张诗乐姜婷婷格温·贝里叶莎·沙阿庄韩宇
申请(专利权)人:伊路米纳有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1