高通量测序应用中的变体分析制造技术

技术编号:14189127 阅读:94 留言:0更新日期:2016-12-15 00:57
本发明专利技术涉及确定、鉴别、检测和标注样品中怀疑的核酸序列的方法。具体地,本发明专利技术所述的方法允许标注存在于样品中的核酸变体。所述方法基于在得自样品的核酸的高通量测序中获得的数据。本发明专利技术还涉及能够执行适合于运行各个计算机软件的本发明专利技术的方法和装置的计算机程序。

Analysis of variants in high-throughput sequencing applications

The invention relates to a method for identifying, identifying, detecting and labeling a nucleic acid sequence in a sample. In particular, the method of the present invention allows labeling of nucleic acid variants present in a sample. The method is based on data obtained from high-throughput sequencing of nucleic acids obtained from samples. The invention also relates to a computer program capable of executing a method and apparatus suitable for operating the various computer software.

【技术实现步骤摘要】
【国外来华专利技术】本专利技术涉及诊断应用,优选地使用高通量测序的临床诊断领域中的方法和产品。所述方法使得能够确定是否存在野生型核酸序列及其变体,以及定量野生型和/或变体核酸序列的频率。本专利技术还允许改善的方法,所述方法检测与野生型氨基酸序列相比时,变体核酸序列编码包含修饰的氨基酸残基的氨基酸序列的发生和/或频率。
技术介绍
在临床诊断领域中,确切知晓给定靶标序列,例如,疾病相关核酸序列(例如,致癌基因或来源于病原体的核酸)是否存在可以是重要的。此外,知晓某些靶标核酸序列的出现频率有时也是重要的。近年来,已很大程度使用了依赖PCR的检测目的核酸序列的方法来检测靶标核酸。然而,存在一些情况,其中在靶标核酸检测中PCR不足够准确,例如,当应检测存在于不同变体中的核酸时,如参与癌症发展的基因或者作为野生型序列变体存在的来源于病毒的基因。KRAS是涉及多种不同人癌症发展的基因的实例。KRAS基因以多种同种型存在,其特征为基因的一些不同位置处的核酸突变。这些核酸突变(它们中的大多数为单核苷酸突变(SNP))可以导致编码不同于野生型氨基酸残基的氨基酸残基的核苷酸密码子改变。就其活化状态或其受某些药物抑制的可能性而言,这些突变可以与蛋白质表型变化有关。为了提供另一个实例,已知某些病毒,如HCV或HIV以大量基因型存在。在核酸序列水平和氨基酸序列水平上,这些基因型两两之间彼此不同。对于某些治疗应用,重要的是知晓病毒基因型,这是因为病毒蛋白质中的突变可与对抗病毒药物的敏感性或耐受性的改变有关,例如,在HIV感染个体的高活性抗反转录病毒疗法(HAART)中使用的干扰素或药物,所述疗法包括病毒蛋白酶抑制剂或病毒反转录酶抑制剂的施用。当从样品(例如,临床样品)分离并通过PCR分析核酸时,所述方法的灵敏性有时不足以检测不同的核酸序列。特别是在多路PCR方法中的引物二聚作用,引物或探针与不同的或到目前为止未知的同种型的不充分结合,以及检测靶标序列的所有已知核酸同种型的大量材料(例如,引物和探针),这在诊断应用中造成了问题。此外,建立和实施大量PCR反应来鉴别众多不同的核酸序列的成本和工作是耗时、费力且易出错的。当使用高通量测序(也称为“下一代测序”(NGS))时,可以克服这些缺点。由于测序方法自动化、待测序样品制备和数据分析方面的进步,NGS逐渐可靠且更便宜。NGS在相对短的时间内提供了大量测序数据。此外,NGS使得能够高精度检测不同的核酸序列同种型。当使用NGS分析核酸时,对多次覆盖目的靶标序列的多个先前扩增的靶标序列进行测序。例如,当靶标核酸为病毒基因时,首先(例如)使用PCR扩增分离自样品的核酸,并且对多个所获得的PCR-序列测序。当以一些靶标核酸序列的同种型共扩增的方式选择进行PCR的寡核苷酸时,扩增产物还含有多个不同的同种型。PCR产物的测序不仅将使得能够确定扩增的核酸序列的同一性,而且它还将使得能够确定特定目的序列是否存在。最后,测序还允许确定样品中一种或多种不同的核酸同种型的出现频率。例如,当样品含有5%的同种型A、30%的同种型B和65%的野生型核酸序列(C)时,基于NGS的分析将不仅提供得自样品的核酸序列的相关信息。NGS还将允许确定所述核酸存在于样品中的频率百分比。这种信息可以在(例如)为从其获得临床样品的患者选择正确疗法中是重要的。然而,在所获得的核酸序列信息的正确分析中仍存在问题。如前所述,NGS提供了不同长度的数千个序列读数、可以含有部分非编码核酸序列片段的序列和至今未知的序列,例如,包含新的单或多核苷酸突变、插入、缺失等的序列。因此,对于正确且有效分析所得数据、比对片段、排除不相关信息以及识别相关和新的核酸序列同种型而不是作为假象忽视它们仍然存在需求。NGS基本上由四个步骤组成:*样品材料的采集、核酸的分离和纯化;*产生模板,例如,双链DNA,反转录RNA以获得cDNA,提供包含DNA片段化的测序文库,大小选择和寡核苷酸衔接子(oligonucleotide adapter)的连接。根据所使用的NGS技术,直接对文库测序(单分子模板)或者在测序前克隆扩增;*在并行测序反应(例如焦磷酸测序、离子半导体测序等)中对先前生成的测序文库进行测序;*测序后数据分析。根据Rizzo和Buck(Key Principles and Clinical Applications of\Next Generation\DNA sequencing,Cancer Prev Res(Phila),2012Jul;5(7):887-900),NGS的一个重要限制是需要分析大量数据。由于NGS反应产生了百万碱基至十亿碱基范围内的序列数据集,因此在测序、数据跟踪、存储和质量控制的所有阶段,分析需要高度精细的信息技术。Rizzo和Buck(如上)将这些广泛的数据采集能力描述为将基因组研究中的瓶颈从数据采集转换至数据分析和解释。NGS机器以如此快速的速度产生数据,使得对于能够分析这些数据集的分析方法存在持续的需求。一般地,在测序平台上通过专有软件进行初始分析(也称为“碱基调用”)。碱基调用后,将测序数据与参考基因组(如果可用)进行比对或者进行从头装配(Rizzo和Buck,同上)。序列对比和装配是使用正在开发的新方法的计算研究的活跃领域(Flieek and Bimey,Sense from sequence reads:methods for alignment and assembly.Nat Methods 2009;6:S6-12)。一旦将序列与参考基因组进行比对,则需要分析数据。来源于NGS实验的序列数据的质量和数量将最终确定下游分析可以如何广泛和准确。定性地,不同NGS平台之间单个碱基调用的错误率是不同的。所有NGS平台为每个单独碱基调用提供了置信度得分,从而当挖掘它们的序列数据时,使得研究人员能够使用不同质量的过滤器。定量地,可以通过测序“覆盖度”的量度评价序列数据的量。(Rizzo和Buck,如上)。如本文所使用的,序列覆盖度(也称为“深度”)是指给定实验中碱基对测序的平均次数。定性地,不平均的序列覆盖度也可以干扰序列变体的分析。具有不均匀读数分布的深度测序样品仍可以留下大部分未测序或正在测序的基因组,并且这些区域的分析将不能鉴别序列变化,如单核苷酸多态性(SNP)、点突变或结构变体,这是因为这些位置将是未测序的或将受测序错误的干扰(Rizzo和Buck,同上)。最终,覆盖度深度、分布和序列质量决定了可以从每个测序实验获取什么信息。为了发现结构变体(例如,插入、缺失、移位),使用当前(第二代)平台的完整人基因组序列的准确鉴别需要约20×至30×的序列覆盖度以克服不平均的读数分布和测序错误(Thompson JF,Milos PM,The properties and applications of single-molecule DNA sequencing Genome Biol.2011;12(2):217.doi:10.1186/gb-2011-12-2-217)。以上表明通过NGS测序方法获得的数据的分析是关键问题。本专利技术涉及分析这种数据的方法,特别是在目的核酸,例如核酸序列的特定同种型的存在与否的检测中分析这种数据的本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580009709.html" title="高通量测序应用中的变体分析原文来自X技术">高通量测序应用中的变体分析</a>

【技术保护点】
标注怀疑存在于样品中的核酸序列中变体的方法,其包括以下步骤:a)选择至少一个目的核酸序列,b)使用分离的核酸来提供测序模板,c)所述模板的高通量测序;d)提供包含可能的参考序列的数据库,e)将核酸序列中的核苷酸变体分组以确定共发生和互相排斥的突变,f)使用序列数据库标注步骤e)中鉴别的变体。

【技术特征摘要】
【国外来华专利技术】2014.02.20 GB 1402996.11.标注怀疑存在于样品中的核酸序列中变体的方法,其包括以下步骤:a)选择至少一个目的核酸序列,b)使用分离的核酸来提供测序模板,c)所述模板的高通量测序;d)提供包含可能的参考序列的数据库,e)将核酸序列中的核苷酸变体分组以确定共发生和互相排斥的突变,f)使用序列数据库标注步骤e)中鉴别的变体。2.根据权利要求1所述的方法,其中d)中所提及的数据库包含对应于所述目的核酸的野生型序列,并且任选地还包含所述野生型序列的变体。3.根据权利要求1和2所述的方法,其中所述数据库为COSMIC数据库。4.根据权利要求1-3中任一项所述的方法,还包括确定基因组和编码DNA序列。5.根据权利要求1-4中任一项所述的方法,还包括在单一步骤中确定基因组和编码DNA序列。6.根据权利要求1-5中任一项所述的方法,还包括过滤掉落入扩增子区域以外的变体。7.根据权利要求1-6中任一项所述的方法,还包括确定编码的氨基酸序列。8.鉴别怀疑存在于样品中的核酸序列中变体的方法,其包括以下步骤:a)选择至少一个目的核酸序列,b)使用分离的核酸来提供测序模板,c)所述模板的高通量测序;d)提供包含可能的参考序列的数据库,e)将核酸序列中的核苷酸变体分组以确定共发生和互相排斥突变,f)使用序列数据库标注步骤e)中鉴别的变体。9.根据权利要求8所述的方法,其中d)中所提及的数据库包含对应于所述目的核酸的野生型序列,并且任选地还包含所述野生型序列的变体。10.根据权利要求8和9中任一项所述的方法,其中所述数据库为COSMIC数据库。11.根据权利要求8-10中任一项所述的方法,还包括确定基因组和编码DNA序列。12.根据权利要求8-11中任一项所述的方法,还包括在单一步骤中确定基因组和编码DNA序列。13.根据权利要求8-12中任一项所述的方法,还包括过滤掉落入扩增子区域以外的变体。14.根据权利要求8-13中任一项所述的方法,还包括确定所述编码的氨基酸序列。15.根据权利要求8-14中任一项所述的方法,其中所述鉴别的变体选自单核苷酸突变(SNP)、多核苷酸突变、横跨内含子的核苷酸密码子编码的突变、插入和缺失。16.根据权利要求1-15中任一项所述的方法,还包括诊断疾病的步骤。17.根据权利要求1-16中任一项所述的方法,其中所述疾病为传染病或肿瘤病。18.根据权利要求1-17中任一项所述...

【专利技术属性】
技术研发人员:普哈米拉·阿里亚特李查理
申请(专利权)人:贝拉医疗新加坡私人贸易有限公司
类型:发明
国别省市:新加坡;SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1