超深度测序中的罕见变体召集制造技术

技术编号:14754165 阅读:41 留言:0更新日期:2017-03-02 12:01
提供用于低频率变体的准确变体召集方法。接收靶向超深度测序的序列读取并与参考序列比对。对于每一样品扩增子测定其中参考序列上存在参考等位基因的每一位置处相同类别的变体的读取深度和变体计数。基于读取深度和变体计数,使用方法诸如基于统计模型的方法和使用参考样品的本地化方法来计算概率值,所述概率值表示特定变体在特定位置处为真阳性的置信水平。随后将概率值与阈值水平比较以确定所检测的变体是否为真阳性。

【技术实现步骤摘要】
【国外来华专利技术】背景核酸测序确定了给定的DNA或RNA分子中存在的核苷酸顺序。对于更廉价且更迅速测序方法的需求已经驱动了下一代测序(NGS)方法的开发。NGS平台进行大量平行测序,在这过程中来自多种样品的数百万计的DNA片段可以一致地测序,因而提供了对于传统Sanger测序廉价得多且通量高得多的替代方法。NGS可用于全基因组测序或靶向测序。对于靶向测序,基因组中基因或确定区域的子集例如通过扩增靶区域来进行测序或主要测序。超深度测序是以高深度的覆盖度测序扩增子,目标为鉴定常见和罕见序列变化。对于覆盖度的足够深度,超深度测序具有完全表征罕见序列变体下至低于1%的能力。超深度测序已经用于检测低频率HIV药物抗性突变,或鉴定复杂癌症样品中的罕见体细胞突变。对于测试诸如非侵入性血液测试,生物标志物突变的频率可能低于1%。然而,NGS是易错方法,且能够具有接近于1%或更高的错误率,其取决于测序深度、样品类型和测序方案。因此,许多目前的NGS软件包仅报道具有1%或更高频率的变体,因为对于频率低于1%的变体可能出现假阳性。然而,即使对于具有例如低于1%的低频率的变体,仍然可以存在真阳性。因此,需要检测具有低频率诸如约0.0025%至约1%的低频率变体的真阳性的方法和系统。专利技术简述实施方案可以提供用于基于样品的测序读取(例如获自靶向测序)进行更精确的变体召集(calls)的方法、系统和装置。例如,一旦接收序列读取并与参考序列比较,则可以计算在一个位置处具有变体的序列读取。在样品的一个位置处测量的特定变体的第一变体频率可以与在其他位置和/或来自其他样品测量的特定变体的一个或多个第二变体频率进行比较。第二变体频率可以对应于测序运行的测序错误的预期值。在一些实施方案中,表示变体在一个位置处为真阳性的置信水平的概率值可以基于在一个或多个样品中目标区域内多个位置处的变体计数和总读取计数来计算。随后可以将概率值与阈值水平比较以确定所检测的变体是否为真阳性。在其他实施方案中,测试样品和参考样品中相同位置处的变体计数和总读取计数中的差异(例如,假定仅在该位置处具有测序错误)可以用于确定变体在测试样品中是否为真阳性。根据一个实施方案,方法可以检测测试样品的目标区域中罕见变体的真阳性。对于每一样品,在其中参考序列上存在参考等位基因的位置处相同变体类别的变体的变体频率可以使用变体计数和总读取计数来计算。相同类别变体的变体频率的分布可以用于确定具有确定的变体频率的测试样品中位置处的变体的概率值。基于概率值,将测试样品中该位置处的变体归类为真阳性(突变)或假阳性。在其他实施方案中,方法可以通过使用与一个或多个参考样品比较来检测测试样品的目标区域中速率变体(ratevariants)的真阳性。测试样品中特定位置处特定变体的变体计数和野生型计数可以从比对的序列读取中确定,并且与一个或多个参考样品中特定位置处特定变体的变体计数和野生型计数进行比较来确定概率值。基于概率值,将测试样品中该特定位置处的特定变体归类为真阳性或假阳性。在一个实施方案中,提供在第一样品中目标区域中检测低频率变体的计算机执行的方法。在此,所述方法包括(在计算机系统中)接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取,鉴定目标区域的第一位置处具有第一等位基因的第一候选变体;基于与参考序列的第一位置比对的第一样品的序列读取,确定所述第一位置处第一等位基因的第一变体频率;鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别,所述多个变体类别的每一变体类别对应于不同类型的变体;鉴定具有参考等位基因的参考序列的目标区域中第二位置的组,其中在一个或多个样品中至少50%的其他位置对于所述第一等位基因展示出假阳性,且其中第二位置的组包括第一位置;在第二位置的组的每一个处和对于一个或多个样品的每一个:基于与参考序列的第二位置比对的样品的序列读取,确定第一等位基因的第二变体频率,所述第二变体频率形成统计分布;比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值;和比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分,对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。在某些实施方案中,参考序列对应于如从正常细胞中确定的共有序列。在一些实施方案中,一个或多个样品来源于无细胞DNA片段。在一些实施方案中,一个或多个样品来源于生物样品的RNA。在一些实施方案中,多个样品在单一测序运行中进行测序。在其他实施方案中,统计分布的统计值包括平均值。在其他实施方案中,概率值为z得分、修饰的z得分、累积概率、Phred质量得分、或修饰的Phred质量得分。在其他实施方案中,统计分布为第二变体频率的对数变换的统计分布。在其他实施方案中,基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定阈值。在其他实施方案中在其他实施方案中,阈值是变体频率的函数。在另一实施方案中,提供用于检测在第一样品的目标区域中第一位置处具有第一等位基因的变体的计算机实现的方法。在此,所述方法包括(在计算机系统中):接收从来自至少两个样品的测序DNA片段获得的多个序列读取,所述至少两个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于与参考序列的第一位置处的参考等位基因不同的第一位置处的每一样品的经比对的序列读取,鉴定所述至少两个样品的每一样品的第一位置处是否存在第一等位基因;确定所述至少两个样品的每一样品的第一位置处的第一等位基因的变体计数和第一位置处的参考等位基因的野生型计数;从所述至少两个样品选择至少一个样品作为参考样品;比较所述第一样品的第一位置处的第一等位基因的第一变体计数和第一位置处的参考等位基因的第一野生型计数与所述参考样品的第一位置处的第一等位基因的第二变体计数和第一位置处的参考等位基因的第二野生型计数,以确定所述第一样品的第一位置处具有第一等位基因的变体的概率值;和比较所述第一等位基因的概率值与阈值作为确定第一样品的第一位置处的第一等位基因是否为真阳性的部分,在第一位置处对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。在某些实施方案中,参考样品包含两种样品,所述样品在不是第一样品的至少两种样品中在第一位置处具有第一等位基因的最低变体频率。在一些实施方案中,使用卡方累积分布函数确定概率值。在一些实施方案中,使用Pearson比率测试确定概率值。在一些实施方案中,概率值是z得分、修饰的z得分、p值、卡方值、累积概率值和质量得分中的一种或多种。在一些实施方案中,使用查找表确定质量得分。在一些实施方案中,基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定阈值。在一些实施方案中,阈值是变体频率的函数。在另一实施方案中,提供包含存储多种指令的非瞬时计算机可读介质的计算机产品,所述指令当执行时,控制计算机系统来检测第一样品的目标区域中的真变体。在此,所述指令包括接收从来自一个或多个样品的测序DNA片段获本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580024749.html" title="超深度测序中的罕见变体召集原文来自X技术">超深度测序中的罕见变体召集</a>

【技术保护点】
检测第一样品目标区域中低频率变体的计算机实现的方法,所述方法包括,在计算机系统上:接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取,鉴定目标区域的第一位置处具有第一等位基因的第一候选变体;基于与参考序列的第一位置比对的第一样品的序列读取,确定所述第一位置处第一等位基因的第一变体频率;鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别,所述多个变体类别的每一变体类别对应于不同类型的变体;鉴定具有参考等位基因的参考序列的目标区域中第二位置的组,其中在一个或多个样品中至少50%的其他位置对于所述第一等位基因展示出假阳性,且其中第二位置的组包括第一位置;在第二位置的组的每一个处和对于一个或多个样品的每一个:基于与参考序列的第二位置比对的样品的序列读取,确定第一等位基因的第二变体频率,所述第二变体频率形成统计分布;比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值;和比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分,对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。...

【技术特征摘要】
【国外来华专利技术】2014.05.12 US 61/9918201.检测第一样品目标区域中低频率变体的计算机实现的方法,所述方法包括,在计算机系统上:接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取,鉴定目标区域的第一位置处具有第一等位基因的第一候选变体;基于与参考序列的第一位置比对的第一样品的序列读取,确定所述第一位置处第一等位基因的第一变体频率;鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别,所述多个变体类别的每一变体类别对应于不同类型的变体;鉴定具有参考等位基因的参考序列的目标区域中第二位置的组,其中在一个或多个样品中至少50%的其他位置对于所述第一等位基因展示出假阳性,且其中第二位置的组包括第一位置;在第二位置的组的每一个处和对于一个或多个样品的每一个:基于与参考序列的第二位置比对的样品的序列读取,确定第一等位基因的第二变体频率,所述第二变体频率形成统计分布;比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值;和比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分,对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。2.权利要求1的方法,其中所述参考序列对应于如从正常细胞中确定的共有序列。3.权利要求1或2中任一项的方法,其中所述一个或多个样品来源于无细胞的DNA片段。4.权利要求1或2中任一项的方法,其中所述一个或多个样品来源于生物样品的RNA。5.权利要求1至4中任一项的方法,其中所述多个样品在单一测序运行中进行测序。6.权利要求1至5中任一项的方法,其中所述统计分布的统计值包括平均值。7.权利要求1至6中任一项的方法,其中所述概率值为z得分、修饰的z得分、累积概率、Phred质量得分、或修饰的Phred质量得分。8.权利要求1至7中任一项的方法,其中所述统计分布为第二变体频率的对数变换的统计分布。9.权利要求1至8中任一项的方法,其中基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定所述阈值。10.权利要求1至9中任一项的方法,其中所述阈值是变体频率的函数。11.检测第一样品中目标区域中第一位置处具有第一等位基因的变体的计算机实现的方法,所述方法包括,在计算机系统上:接收从来自至少两个样品的测序DNA片段获得的多个序列读取,所述至少两个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于与参考序列的第一位置处的参考等位基因不同的第一位置处的每一样品的经比对的序列读取,鉴定所述至少两个样品的每一样品的第一位置处是否存在第一等位基因;确定所述至少两个样品的每一样品的...

【专利技术属性】
技术研发人员:WM刘
申请(专利权)人:豪夫迈·罗氏有限公司
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1