超深度测序中的罕见变体召集制造技术

技术编号：14754165 阅读：41 留言：0更新日期：2017-03-02 12:01

提供用于低频率变体的准确变体召集方法。接收靶向超深度测序的序列读取并与参考序列比对。对于每一样品扩增子测定其中参考序列上存在参考等位基因的每一位置处相同类别的变体的读取深度和变体计数。基于读取深度和变体计数，使用方法诸如基于统计模型的方法和使用参考样品的本地化方法来计算概率值，所述概率值表示特定变体在特定位置处为真阳性的置信水平。随后将概率值与阈值水平比较以确定所检测的变体是否为真阳性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】背景核酸测序确定了给定的DNA或RNA分子中存在的核苷酸顺序。对于更廉价且更迅速测序方法的需求已经驱动了下一代测序（NGS）方法的开发。NGS平台进行大量平行测序，在这过程中来自多种样品的数百万计的DNA片段可以一致地测序，因而提供了对于传统Sanger测序廉价得多且通量高得多的替代方法。NGS可用于全基因组测序或靶向测序。对于靶向测序，基因组中基因或确定区域的子集例如通过扩增靶区域来进行测序或主要测序。超深度测序是以高深度的覆盖度测序扩增子，目标为鉴定常见和罕见序列变化。对于覆盖度的足够深度，超深度测序具有完全表征罕见序列变体下至低于1％的能力。超深度测序已经用于检测低频率HIV药物抗性突变，或鉴定复杂癌症样品中的罕见体细胞突变。对于测试诸如非侵入性血液测试，生物标志物突变的频率可能低于1％。然而，NGS是易错方法，且能够具有接近于1%或更高的错误率，其取决于测序深度、样品类型和测序方案。因此，许多目前的NGS软件包仅报道具有1％或更高频率的变体，因为对于频率低于1％的变体可能出现假阳性。然而，即使对于具有例如低于1％的低频率的变体，仍然可以存在真阳性。因此，需要检测具有低频率诸如约0.0025％至约1％的低频率变体的真阳性的方法和系统。专利技术简述实施方案可以提供用于基于样品的测序读取（例如获自靶向测序）进行更精确的变体召集(calls)的方法、系统和装置。例如，一旦接收序列读取并与参考序列比较，则可以计算在一个位置处具有变体的序列读取。在样品的一个位置处测量的特定变体的第一变体频率可以与在其他位置和/或来自其他样品测量的特定变体的一个或多个第二变体频率...
<a href="http://www.xjishu.com/zhuanli/55/201580024749.html" title="超深度测序中的罕见变体召集原文来自X技术">超深度测序中的罕见变体召集</a>

【技术保护点】
检测第一样品目标区域中低频率变体的计算机实现的方法，所述方法包括，在计算机系统上：接收从来自一个或多个样品的测序DNA片段获得的多个序列读取，所述一个或多个样品包括第一样品，其中所述测序包括靶向DNA片段中的目标区域；将多个序列读取与参考序列的目标区域比对；基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取，鉴定目标区域的第一位置处具有第一等位基因的第一候选变体；基于与参考序列的第一位置比对的第一样品的序列读取，确定所述第一位置处第一等位基因的第一变体频率；鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别，所述多个变体类别的每一变体类别对应于不同类型的变体；鉴定具有参考等位基因的参考序列的目标区域中第二位置的组，其中在一个或多个样品中至少50％的其他位置对于所述第一等位基因展示出假阳性，且其中第二位置的组包括第一位置；在第二位置的组的每一个处和对于一个或多个样品的每一个：基于与参考序列的第二位置比对的样品的序列读取，确定第一等位基因的第二变体频率，所述第二变体频率形成统计分布；比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值；和...

【技术特征摘要】
【国外来华专利技术】2014.05.12 US 61/9918201.检测第一样品目标区域中低频率变体的计算机实现的方法，所述方法包括，在计算机系统上：接收从来自一个或多个样品的测序DNA片段获得的多个序列读取，所述一个或多个样品包括第一样品，其中所述测序包括靶向DNA片段中的目标区域；将多个序列读取与参考序列的目标区域比对；基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取，鉴定目标区域的第一位置处具有第一等位基因的第一候选变体；基于与参考序列的第一位置比对的第一样品的序列读取，确定所述第一位置处第一等位基因的第一变体频率；鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别，所述多个变体类别的每一变体类别对应于不同类型的变体；鉴定具有参考等位基因的参考序列的目标区域中第二位置的组，其中在一个或多个样品中至少50％的其他位置对于所述第一等位基因展示出假阳性，且其中第二位置的组包括第一位置；在第二位置的组的每一个处和对于一个或多个样品的每一个：基于与参考序列的第二位置比对的样品的序列读取，确定第一等位基因的第二变体频率，所述第二变体频率形成统计分布；比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值；和比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分，对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。2.权利要求1的方法，其中所述参考序列对应于如从正常细胞中确定的共有序列。3.权利要求1或2中任一项的方法，其中所述一个或多个样品来源于无细胞的DNA片段。4.权利要求1或2中任一项的方法，其中所述一个或多个样品来源于生物样品的RNA。5.权利要求1至4中任一项的方法，其中所述多个样品在单一测序运行中进行测序。6.权利要求1至5中任一项的方法，其中所述统计分布的统计值包括平均值。7.权利要求1至6中任一项的方法，其中所述概率值为z得分、修饰的z得分、累积概率、Phred质量得分、或修饰的Phred质量得分。8.权利要求1至7中任一项的方法，其中所述统计分布为第二变体频率的对数变换的统计分布。9.权利要求1至8中任一项的方法，其中基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定所述阈值。10.权利要求1至9中任一项的方法，其中所述阈值是变体频率的函数。11.检测第一样品中目标区域中第一位置处具有第一等位基因的变体的计算机实现的方法，所述方法包括，在计算机系统上：接收从来自至少两个样品的测序DNA片段获得的多个序列读取，所述至少两个样品包括第一样品，其中所述测序包括靶向DNA片段中的目标区域；将多个序列读取与参考序列的目标区域比对；基于与参考序列的第一位置处的参考等位基因不同的第一位置处的每一样品的经比对的序列读取，鉴定所述至少两个样品的每一样品的第一位置处是否存在第一等位基因；确定所述至少两个样品的每一样品的...

【专利技术属性】
技术研发人员：WM刘，
申请(专利权)人：豪夫迈·罗氏有限公司，
类型：发明
国别省市：瑞士;CH

全部详细技术资料下载我是这个专利的主人