System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源制造技术_技高网

从碱基判读错误模式自动鉴定核苷酸测序中的故障来源制造技术

技术编号:40390302 阅读:5 留言:0更新日期:2024-02-20 22:22
本发明专利技术公开了方法、系统和非暂态计算机可读介质,该方法、系统和非暂态计算机可读介质用于从测序数据准确且有效地鉴定碱基判读错误瘢痕或模式,以确定促成这些碱基判读错误瘢痕或模式的故障来源。例如,本发明专利技术所公开的系统能够利用参考基因组来确定测序流水线的运行内的核苷酸特异性错误。基于不同核苷酸特异性错误的共同出现,本发明专利技术所公开的系统能够确定碱基判读错误瘢痕。本发明专利技术所公开的系统能够进一步从样品测序运行中确定与碱基判读错误瘢痕相关的一个或多个样品错误瘢痕。基于该相关性并且通过利用统计模型,本发明专利技术所公开的系统可以鉴定促成碱基判读错误瘢痕内的核苷酸特异性错误的故障来源。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、近年来,生物技术公司和研究机构已经改进了硬件和软件平台以确定核苷酸碱基序列或整个基因组。例如,一些现有的核酸测序平台通过使用现有的桑格测序或边合成边测序(sbs)来确定序列内的各个核苷酸碱基。使用sbs时,现有平台可以监测并行合成的数以万计或更多寡核苷酸,以确定核苷酸碱基判读。例如,sbs平台中的相机可以捕获来自掺入此类寡核苷酸中的核苷酸碱基的经照射荧光标签的图像。在捕获图像后,现有的sbs平台向具有测序数据分析软件的计算装置发送碱基判读数据(或图像数据),其中该测序数据分析软件将核苷酸读段与参考基因组比对。基于这些比对的核苷酸片段读段,现有的sbs平台可以确定基因组区域的核苷酸碱基判读,并且鉴定样品核酸序列内的变体。

2、尽管测序取得了进展,现有的核苷酸碱基测序平台和测序数据分析软件(在下文中统称为“现有的测序系统”)在遍及基因组的多个位置处或在测序运行期间频繁地确定不正确的核苷酸碱基判断,却无法准确地或有效地检测此类不正确的核苷酸碱基判读的系统性原因或随机原因。实际上,由于复杂的硬件故障、错误的试剂彼此相互作用或与核苷酸相互作用,或者复杂的软件不正确地分析核苷酸读段或其他碱基判读数据,现有的测序系统可能确定不正确的碱基判读,或者减慢甚至停止测序运行中碱基判读的产生。虽然一些现有的测序系统在测序机器的管道或其他部分内包括传感器,但是这样的机器内传感器只能检测硬件或试剂故障的相对小的子集,而且可能完全不能检测软件错误。除了机器内传感器之外,一些现有系统利用软件修整工具来排除具有较低质量得分的核苷酸片段读段末端或输入数据的其他部分。然而,通过减少核苷酸片段读段长度,常规的修整工具常常加剧覆盖范围偏差,由此引入检测系统性错误的其他复杂性。就这一点进一步而言,许多常规的错误校正工具(诸如用于错误校正的贝叶斯聚类、布隆过滤器校正(bfc)、用于高通量测序读取的基于布隆过滤器的错误校正解决方案(bless),以及其他工具)被设计为校正常见的读取错误或扩展某些读取,但是对此类错误的潜在原因几乎没有给出指示。由于化学、机械或软件中的许多潜在故障点,现有的测序系统时常不能准确地查明对数据质量或碱基判读效率有贡献的潜在因素。

3、除了故障检测不准确或不存在故障检测之外,现有的测序系统通常只能使用低效或庞大的检测传感器或算法来检测系统性错误。例如,现有系统经常耗费额外的处理资源、计算资源、存储资源和时间来在测序中正确或不正确地鉴定错误来源。常规系统通常利用多种方法和算法来分析基因组并校正错误。此类方法和算法在计算上是昂贵的。在一个示例中,现有系统通过分析读取对并生成读取对之间的相似性分数来利用louvian社区检测算法。为了降低为每个读取对生成相似性分数的计算成本,一些现有系统分析序列的具体区段,而必须忽略其他区段。但是计算每个读取对之间的相似性分数通常既是计算密集的,又是时间密集的。由于现有系统常常不能有效地鉴定故障来源,所以它们在成功地鉴定问题之前时常要求用户多次重复测序运行。

4、除了计算密集的错误检测之外,一些现有的测序系统只能不灵活地解决某些类型的错误。一般来讲,测序平台缺乏鉴定现有系统中出现的广谱潜在故障来源所需的基础结构。例如,现有的测序系统通常利用phred算法来确定估计单个碱基判读不正确的可能性的质量得分。现有系统即使可以估计各个碱基判读错误,通常也不能鉴定此类碱基判读错误的根本原因。为了说明,现有系统通常不能指示特定错误是源于机械、试剂、化学还是软件中的故障。

5、这些问题和难题,连同附加的问题和难题存在于现有的测序系统中。


技术实现思路

1、本公开描述了解决一个或多个上述问题或提供优于现有技术的其他优点的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。具体地,本专利技术所公开的系统可以从测序流水线的测序数据准确且高效地鉴定碱基判读错误瘢痕或模式,并且确定对碱基判读错误瘢痕或模式有贡献的故障来源。例如,本专利技术所公开的系统可以利用参考基因组来确定测序流水线的测序运行内的核苷酸特异性错误。基于核苷酸特异性错误的不同量值或组合,本专利技术所公开的系统可以进一步在测序流水线的碱基判读数据之中鉴定碱基判读错误瘢痕。本专利技术所公开的系统可以使用相同或相似的测序流水线进一步分析来自样品测序运行的数据,然后应用统计模型来从样品测序运行中鉴定与碱基判读错误瘢痕相关的样品碱基判读错误瘢痕。基于来自测序流水线的数据的碱基判读错误瘢痕与一个或多个相应的样品碱基判读错误瘢痕之间的相关性,本专利技术所公开的系统可以鉴定促成碱基判读错误瘢痕之中的核苷酸特异性错误的故障来源。例如,本专利技术所公开的系统可以鉴定硬件、化学或软件中的故障来源。

2、本公开的一个或多个实施方案的附加的特征部和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。

本文档来自技高网...

【技术保护点】

1.一种系统,包括:

2.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过确定由所述测序流水线生成的核苷酸碱基判读不同于所述参考碱基的核苷酸特异性错误率来确定所述碱基判读错误率。

3.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时使得所述系统:

4.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤确定对应于所述测序流水线的所述故障来源:

5.根据权利要求4所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过确定促成来自所述测序流水线的所述碱基判读错误的所述测序流水线材料的可分配原因变异来确定所述贡献量度。

6.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统提供指示所述故障来源的通知,以显示在与所述测序流水线相关联的计算设备上。

7.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过将耗材产品、测序机器的一部分、软件应用程序或特征、或者核苷酸样品载片的一部分鉴定为促成所述测序流水线中的测序变异的因素来确定所述故障来源。

8.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过利用混淆矩阵来确定所述碱基判读错误率。

9.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤鉴定用于所述一个或多个样品测序运行的所述一个或多个样品碱基判读错误模式:

10.根据权利要求9所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤检测所述不同的样品碱基判读错误模式:

11.根据权利要求9所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤对利用类似制造材料的所述样品测序运行集合进行分类:

12.一种包括指令的非暂态计算机可读介质,所述指令在由至少一个处理器执行时使得计算设备:

13.根据权利要求12所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备通过以下步骤确定对应于所述测序流水线的所述故障来源:

14.根据权利要求13所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备利用所述统计模型,通过利用方差成分模型生成促成所述碱基判读错误的所述测序流水线材料的可分配原因变异百分比,来确定所述贡献量度。

15.根据权利要求12所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备通过鉴定所述一个或多个样品测序运行的现有样品碱基判读错误模式或者检测所述一个或多个样品测序运行的新样品碱基判读错误模式,来鉴定所述一个或多个样品测序运行的所述一种或多种样品碱基判读错误模式。

16.根据权利要求12所述的非暂态计算机可读介质,根据权利要求12所述的非暂态计算机可读介质,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述计算设备基于特定类型的核苷酸碱基判读中的正确核苷酸碱基判读总数对包括碱基判读错误数据的混淆矩阵进行归一化来确定所述碱基判读错误率。

17.一种计算机实现的方法,包括:

18.根据权利要求17所述的计算机实现的方法,还包括:

19.根据权利要求17所述的计算机实现的方法,其中确定所述碱基判读错误率包括基于碱基判读错误的周期、时间或核苷酸读段中的一者或多者以及特定类型的核苷酸碱基判读中的正确核苷酸碱基判读总数对包括碱基判读错误数据的混淆矩阵进行归一化。

20.根据权利要求17所述的计算机实现的方法,还包括通过利用方差成分模型确定促成所述碱基判读错误类型的碱基判读错误的测序流水线材料的可分配原因变异百分比,来确定所述一种或多种碱基判读错误模式与所述一种或多种样品碱基判读错误模式之间的相关性。

...

【技术特征摘要】
【国外来华专利技术】

1.一种系统,包括:

2.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过确定由所述测序流水线生成的核苷酸碱基判读不同于所述参考碱基的核苷酸特异性错误率来确定所述碱基判读错误率。

3.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时使得所述系统:

4.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤确定对应于所述测序流水线的所述故障来源:

5.根据权利要求4所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过确定促成来自所述测序流水线的所述碱基判读错误的所述测序流水线材料的可分配原因变异来确定所述贡献量度。

6.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统提供指示所述故障来源的通知,以显示在与所述测序流水线相关联的计算设备上。

7.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过将耗材产品、测序机器的一部分、软件应用程序或特征、或者核苷酸样品载片的一部分鉴定为促成所述测序流水线中的测序变异的因素来确定所述故障来源。

8.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过利用混淆矩阵来确定所述碱基判读错误率。

9.根据权利要求1所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤鉴定用于所述一个或多个样品测序运行的所述一个或多个样品碱基判读错误模式:

10.根据权利要求9所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤检测所述不同的样品碱基判读错误模式:

11.根据权利要求9所述的系统,还包括以下指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下步骤对利用类似制造材料的所述...

【专利技术属性】
技术研发人员:T·格罗斯Z·W·谢尼
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1