用于变体识别的相关错误事件缓解的系统和方法技术方案

技术编号：24366249 阅读：31 留言：0更新日期：2020-06-03 04:51

本发明专利技术涉及用于通过考虑对相关错误事件的指示来提高变体识别的准确性的方法、系统和设备，包含计算机程序。在一个方面中，一种方法可以包含以下动作：存取与参考基因组的第一区域比对的序列读段的堆积；获得描述所述堆积的多个读段中的每个读段的一个或多个特性的信息；将描述所述堆积的所述多个读段的所述一个或多个特性的一个或多个输入提供到概率模型，其中所述概率模型被配置成针对基于所述一个或多个输入选择的一个或多个假设中的每个假设确定指示每个假设是否为真的分数；获得所述一个或多个假设中的每个假设的输出信息；以及基于所获得的输出信息确定在第一位置处存在真变体的可能性。

System and method of related error event mitigation for variant identification

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于变体识别的相关错误事件缓解的系统和方法相关申请的交叉引用本申请要求2018年2月16日申请且标题为“用于执行外来读段检测和突发错误检测的方法、装置和系统(Methods,Devices,andSystemsforPerformingForeignReadDetectionandBurstErrorDetection)”的第62/710,348号美国临时申请的权益，所述美国临时申请的公开的全文以引用的方式并入本文中。
技术介绍
核酸测序仪是被配置成使对例如脱氧核糖核酸(DNA)或核糖核酸(RNA)的核酸测序的过程自动化的仪器。核酸测序是确定基因序列中的核苷酸顺序的过程。核酸测序仪被配置成接收核酸样品并生成输出数据，所述输出数据被称作一个或多个“读段(read)”，所述读段表示核酸样品中的核苷酸顺序。DNA样品中的核苷酸可以包含以任何组合形式的鸟嘌呤(G)、胞嘧啶(C)、腺嘌呤(A)和胸腺嘧啶(T)中的一种或多种。RNA样品中的核苷酸可以包含以任何组合形式以任何组合形式的G、C、A和尿嘧啶(U)中的一种或多种。由DNA测序...

【技术保护点】
1.一种用于通过考虑对相关错误事件的指示来提高变体识别的准确性的方法，所述方法包括：/n由一个或多个计算机并从一个或多个存储器装置存取与参考基因组的第一区域比对的多个序列读段的堆积；/n由所述一个或多个计算机获得描述所述堆积的对应于所述参考基因组的第一位置的所述多个读段中的每个读段的一个或多个特性的信息；/n由所述一个或多个计算机并基于所获得的信息将描述所述堆积的所述多个读段的所述一个或多个特性的一个或多个输入提供到概率模型，其中所述概率模型被配置成针对基于所述一个或多个输入选择的一个或多个假设中的每个假设确定指示所述假设是否为真的分数；/n由所述一个或多个计算机获得所述一个或多个假设中的每个...

【技术特征摘要】
【国外来华专利技术】20180216 US 62/710,3481.一种用于通过考虑对相关错误事件的指示来提高变体识别的准确性的方法，所述方法包括：
由一个或多个计算机并从一个或多个存储器装置存取与参考基因组的第一区域比对的多个序列读段的堆积；
由所述一个或多个计算机获得描述所述堆积的对应于所述参考基因组的第一位置的所述多个读段中的每个读段的一个或多个特性的信息；
由所述一个或多个计算机并基于所获得的信息将描述所述堆积的所述多个读段的所述一个或多个特性的一个或多个输入提供到概率模型，其中所述概率模型被配置成针对基于所述一个或多个输入选择的一个或多个假设中的每个假设确定指示所述假设是否为真的分数；
由所述一个或多个计算机获得所述一个或多个假设中的每个假设的输出信息，其中所述一个或多个假设中的每个假设的所述输出信息(i)是由所述概率模型基于所述概率模型处理到所述概率模型的描述所述堆积的相应读段的所述一个或多个特性的所述一个或多个输入而生成的，并(ii)指示了指示所述假设是否为真的分数；以及
由所述一个或多个计算机并基于由所述概率模型针对所述多个假设中的每个假设生成的所获得的输出信息确定在所述第一位置处存在真变体的可能性。

2.根据权利要求1所述的方法，其中由所述一个或多个计算机并基于由所述概率模型针对所述多个假设中的每个假设生成的所获得的输出信息确定在所述第一位置处存在真变体的可能性包括：
由所述一个或多个计算机确定基于由所述概率模型针对所述多个假设中的每个假设生成的所述输出信息的总分数，其中所述总分数指示所述真变体存在的可能性；
由所述一个或多个计算机确定由所述总分数生成的所述分数是否满足预定阈值；以及
基于由所述一个或多个计算机确定所述总分数满足所述预定阈值将指示在所述第一位置处存在真变体的信息添加到VCF文件。

3.根据权利要求2所述的方法，其中指示在所述第一位置处存在真变体的所述信息包含标识以下各项的信息：(i)所述第一位置、(ii)所述第一位置处的候选alt等位基因、(iii)所述总分数。

4.根据权利要求1所述的方法，其中描述所述相应读段的所述一个或多个特性的所述信息包含描述以下各项的信息：(i)所述堆积中的在所述第一位置处的每个序列读段的映射质量分数；以及(ii)针对所述第一位置处的每个候选等位基因，所述堆积中的在所述第一位置处的每个序列读段的读段等位基因分数。

5.根据权利要求4所述的方法，其中所述堆积的在所述第一位置处的每个读段的所述读段等位基因分数是基于由P-HMM模型针对所述第一位置处的所述读段中的每个读段产生的输出，所述输出指示考虑到特定候选等位基因Gm,φ而观测读段ri的概率。

6.根据权利要求4所述的方法，其中所述输出信息包含：
所述一个或多个假设中的第一假设的第一输出信息，所述第一输出信息包含所述第一位置处的所述序列读段指示具有与alt匹配的外来等位基因的纯合参考物的出现的可能性；以及
所述一个或多个假设中的第二假设的第二输出信息，所述第二输出信息包含所述第一位置处的所述序列读段指示具有与参考等位基因匹配的外来等位基因的纯合alt的出现的可能性。

7.根据权利要求1所述的方法，其中描述所述相应序列读段的所述一个或多个特性的所述信息包含描述以下各项的信息：(i)所述堆积的在所述第一位置处的每个序列读段的读段取向、(ii)所述堆积的在所述第一位置处的每个序列读段内的所述第一位置处的每个碱基参考所述序列读段的5′端的位置、(iii)所述参考位置处的每个候选等位基因的所述多个序列读段中的每个序列读段的读段等位基因分数、以及(iv)所述第一位置处的所述碱基的每个读段的碱基质量分数。

8.根据权利要求7所述的方法，其中所述堆积的在所述第一位置处的每个序列读段的所述读段等位基因分数是基于由P-HMM模型针对所述第一位置处的所述序列读段中的每个序列读段产生的输出，所述输出指示考虑到特定候选等位基因Gm,φ而观测序列读段ri的概率。

9.根据权利要求1所述的方法，其中描述所述相应序列读段的所述一个或多个特性的所述信息包含描述以下各项的信息：(i)所述堆积的在所述第一位置处的每个序列读段的读段取向、(ii)所述堆积的在所述第一位置处的每个序列读段内的所述第一位置处的每个碱基参考所述序列读段的5′端的位置、以及(iii)所述第一位置处的每个候选等位基因的所述多个序列读段中的每个序列读段的读段等位基因分数。

10.根据权利要求7所述的方法，其中所述输出信息包含：
所述一个或多个假设中的第一假设的第一输出信息，所述第一输出信息包含所述第一位置处的所述序列读段指示具有与所述alt等位基因匹配的测序错误的纯合参考物的出现的可能性；以及
所述一个或多个假设中的第二假设的第二输出信息，所述第二输出信息包含所述第一位置处的所述序列读段指示具有与所述参考等位基因匹配的测序错误的纯合alt的出现的可能性。

11.根据权利要求1所述的方法，其中描述所述相应序列读段的所述一个或多个特性的所述信息包含描述以下各项的信息：(i)所述堆积的在所述第一位置处的每个序列读段的读段取向、(ii)每个序列读段内的例如位置“0”142的所述第一位置处的每个碱基参考所述序列读段的5′端的位置、(iii)所述堆积的在所述第一位置处的每个序列读段的映射质量分数、(iv)所述参考位置处的每个候选等位基因的所述多个读段中的每个序列读段的读段等位基因分数、以及(v)在所述第一位置处比对的所述碱基的每个读段的碱基质量分数。

12.根据权利要求11所述的方法，其中所述堆积的在所述第一位置处的每个序列读段的所述读段等位基因分数是基于由P-HMM模型针对所述第一位置处的所述序列读段中的每个序列读段产生的输出，所述输出指示考虑到特定候选等位基因Gm,φ而观测读段ri的概率。

13.根据权利要求11所述的方法，其中所述输出信息包含：
所述第一位置处的所述序列读段指示具有与alt匹配的外来等位基因的纯合参考物的出现的第一可能性；
所述第一位置处的所述序列读段指示具有与参考等位基因匹配的外来等位基因的纯合alt的出现的第二可能性；
所述一个或多个假设中的第一假设的第三输出信息，所述第三输出信息包含所述第一位置处的所述序列读段指示具有与所述alt等位基因匹配的测序错误的纯合参考物的出现的可能性；以及
所述一个或多个假设中的第二假设的第四输出信息，所述第四输出信息包含所述第一位置处的所述序列读段指示具有与所述参考等位基因匹配的测序错误的纯合alt的出现的可能性。

14.根据权利要求1所述的方法，其中所述一个或多个存储器装置从现场可编程门阵列(FPGA)装置接收经比对序列读段的所述堆积，其中所述FPGA包含已经被配置为映射和比对单元以执行读段映射和比对的一个或多个可配置数字逻辑门。

15.根据权利要求14所述的方法，
其中所述计算机被配置成使用一个或多个有线或无线网络访问所述一个或多个存储器装置，
其中现场可编程门阵列(FPGA)装置和所述一个或多个存储器装置容纳在扩展卡中，所述扩展卡已经耦合到测序仪的电路板，
其中所述测序仪被配置成基于输入样品生成序列读段并将所生成的序列读段存储在所述一个或多个存储器装置中，并且
其中所述FPGA的所述映射和比对单元被配置成访问所述一个或多个存储器装置以获得所生成的序列读段。

16.根据权利要求14所述的方法，
其中所述计算机和所述测序仪各自被配置成使用一个或多个有线或无线网络访问所述一个或多个存储器装置，
其中所述现场可编程门阵列(FPGA)装置和所述一个或多个存储器装置容纳在扩展卡中，所述扩展卡已经耦合到位于所述计算机和所述测序仪远处的服务器的电路板，
其中所述测序仪被配置成基于输入样品生成序列读段，使用所述一个或多个有线或无线网络将所生成的序列读段提供到所述服务器以将所生成的序列读段存储在所述一个或多个存储器装置中，并且
其中所述FPGA的所述映射和比对单元被配置成访问所述一个或多个存储器装置以获得所生成的序列读段。

17.一种系统，所述系统包括：
一个或多个计算机和一个或多个存储装置，所述一个或多个存储装置存储指令，所述指令在由所述一个或多个计算机执行时能够用以使所述一个或多个计算机执行包括以下各项的操作：
由一个或多个计算机并从一个或多个存储器装置存取与参考基因组的第一区域比对的多个序列读段的堆积；
由所述一个或多个计算机获得描述所述堆积的对应于所述参考基因组的第一位置的所述多个读段中的每个读段的一个或多个特性的信息；
由所述一个或多个计算机并基于所获得的信息将描述所述堆积的所述多个读段的所述一个或多个特性的一个或多个输入提供到概率模型，其中所述概率模型被配置成针对基于所述一个或多个输入选择的一个或多个假设中的每个假设确定指示所述假设是否为真的分数；
由所述一个或多个计算机获得所述一个或多个假设中的每个假设的输出信息，其中所述一个或多个假设中的每个假设的所述输出信息(i)是由所述概率模型基于所述概率模型处理到所述概率模型的描述所述堆积的相应读段的所述一个或多个特性的所述一个或多个输入而生成的，并(ii)指示了指示所述假设是否为真的分数；以及
由所述一个或多个计算机并基于由所述概率模型针对所述多个假设中的每个假设生成的所获得的输出信息确定在所述第一位置处存在真变体的可能性。

18.根据权利要求19所述的系统，其中由所述一个或多个计算机并基于由所述概率模型针对所述多个假设中的每个假设生成的所获得的输出信息确定在所述第一位置处存在真变体的可能性包括：
由所述一个或多个计算机确定基于由所述概率模型针对所述多个假设中的每个假设生成的所述输出信息的总分数，其中所述总分数指示所述真变体存在的可能性；
由所述一个或多个计算机确定由所述总分数生成的所述分数是否满足预定阈值；以及
基于由所述一个或多个计算机确定所述总分数满足所述预定阈值将指示在所述第一位置处存在真变体的信息添加到VCF文件。

19.根据权利要求18所述的系统，其中指示在所述第一位置处存在真变体的所述信息包含标识以下各项的信息：(i)所述第一位置、(ii)所述第一位置处的候选alt等位基因、(iii)所述总分数。

20.根据权利要求17所述的系统，其中描述所述相应读段的所述一个或多个特性的所述信息包含描述以下各项的信息：(i)所述堆积中的在所述第一位置处的每个序列读段的映射质量分数；以及(ii)针对所述第一位置处的每个候选等位基因，所述堆积中的在所述第一位置处的每个序列读段的读段等位基因分数。

21.根据权利要求20所述的系统，其中所述堆积的在所述第一位置处的每个读段的所述读段等位基因分数是基于由P-HMM模型针对所述第一位置处的所述读段中的每个读段产生的输出，所述输出指示考虑到特定候选等位基因Gm,φ而观测读段ri的概率。

22.根据权利要求20所述的系统，其中所述输出信息包含：
所述一个或多个假设中的第一假设的第一输出信息，所述第一输出信息包含所述第一位置处的所述序列读段指示具有与alt匹配的外来等位基因的纯合参考物的出现的可能性；以及
所述一个或多个假设中的第二假设的第二输出信息，所述第二输出信息包含所述第一位置处的所述序列读段指示具有与参考等位基因匹配的外来等位基因的纯合alt的出现的可能性。

23.根据权利要求17所述的系统，其中描述所述相应序列读段的所述一个或多个特性的所述信息包含描述以下各项的信息：(i)所述堆积的在所述第一位置处的每个序列读段的读段取向、(ii)所述堆积的在所述第一位置处的每个序列读段内的所述第一位置处的每个碱基参考所述序列读段的5′端的位置、(iii)所述参考位置处的每个候选等位基因的所述多个序列读段中的每个序列读段的读段等位基因分数、以及(iv)所述第一位置处的所述碱基的每个读段的碱基质量分数。

24.根据权利要求23所述的系统，其中所述堆积的在所述第一位置处的每个序列读段的所述读段等位基因分数是基于由P-HMM模型针对所述第一位置处的所述序列读段中的每个序列读段产生的输出，所述输出指示考虑到特定候选等位基因Gm,φ而观测序列读段ri的概率。

25.根据权利要求17所述的系统，其中描述所述相应序列读段的所述一个或多个...

【专利技术属性】
技术研发人员：埃里克·乔恩·奥贾尔德，
申请(专利权)人：伊鲁米那股份有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人