用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型制造技术

技术编号:39398409 阅读:7 留言:0更新日期:2023-11-19 15:52
本发明专利技术公开了方法、系统和非暂态计算机可读介质,用于基于在测序运行期间的碱基检出期间捕获(或来源于该期间)的数据准确并有效地检测气泡何时影响核酸测序运行。具体地,在一个或多个实施方案中,所公开的系统在测序循环期间接收识别核碱基检出的数据和识别该核碱基检出的质量指标的数据。基于特定核碱基检出和针对该质量指标的阈值标记,所公开的系统利用机器学习模型以检测核苷酸样品玻片中气泡的存在。除了简单地检测气泡的该存在之外,所公开的系统还可对不同的检测到的气泡分类,诸如空气泡、油泡或重影泡,或测序期间的其他输出。通过利用检出数据和质量指标,所公开的系统可在平台无关的方法中使用容易获得的测序数据,以使用唯一训练的机器学习模型来检测气泡。泡。泡。

【技术实现步骤摘要】
【国外来华专利技术】用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
[0001]相关申请的交叉引用
[0002]本申请要求2021年4月2日提交的美国临时申请号63/170,072的权益和优先权。上述申请全文据此以引用方式并入。

技术介绍

[0003]近年来,生物技术公司和研究机构已经改进了用于测序和分析核苷酸的硬件和软件平台。例如,一些现有的核酸测序系统通过使用常规桑格测序确定核酸序列的个体核碱基。相比之下,一些现有系统通过执行边合成边测序(SBS)来确定此类核碱基序列。通过使用SBS,现有系统可以监测并行合成的数千、数万或更多核酸聚合物,以从更大的碱基检出数据集检测更准确的碱基检出并且捕获其他测序信息。在一些情况下,现有系统在核苷酸样品玻片(诸如流通池)的孔内的单克隆集落中合成寡核苷酸。例如,在相机捕获荧光标签(该荧光标签照亮来自掺入此类寡核苷酸中的核碱基的颜色)的图像后,一些现有系统将图像数据发送到具有测序数据分析软件的设备,以分析图像数据的碱基检出并且确定核酸聚合物的核碱基序列(例如,核酸聚合物的基因编码区)。
[0004]尽管在测序中有这些进展,但是现有的核酸测序系统表现出几个技术缺点,例如,抑制碱基检出的准确度和误差检测,需要核苷酸样品的低效的重新测序和重新分析,并且将误差检测限于测序设备上的特定硬件。实际上,现有系统经常不准确地进行碱基检出或捕获不可靠的图像数据,因为延行穿过测序设备或玻片的流体和气体可在图像数据下面产生不规则性。例如,核苷酸样品玻片中的气泡(例如,空气或油泡)可能干扰、在其中产生噪声、或以其他方式导致来自此类图像数据(用于碱基检出)的数据特征中的数据质量问题。此类气泡不仅会使碱基检出的数据特征失真,而且会抑制或减慢运行质量或收率。尽管存在由气泡引起的问题,但是现有的核酸测序系统和现有的测序数据分析软件经常缺乏检测气泡的有效手段。
[0005]部分地由于气泡导致的误差或其他测序误差,现有的核酸测序系统经常低效地重新测序和重新分析核苷酸样品。具体地,现有系统和软件经常执行或消耗附加的处理、计算、存储资源和时间来生成质量数据以校正受气泡干扰影响的数据。为了说明,测序运行可能经受许多问题类型,诸如失败的测序反应、污染、差的样品加载或气泡的存在。因为现有系统经常不能识别气泡的存在或者将气泡干扰与其他误差区分开,所以此类系统经常需要用户在成功识别问题之前重复测序运行。
[0006]虽然已经开发或设想了用于检测气泡的基本机械方法,但是此类检测方法是低效的并且可能限于特定平台类型。例如,现有的核酸测序系统经常需要关于测序运行的附加信息以识别气泡的存在或测序误差的其他来源。更具体地,使流体通过管路流到盒的常规核酸测序系统经常需要附加的硬件以捕获指示气泡的存在的数据。例如,现有系统经常需要附加的管路相机、管路检测器或其他类型的传感器。在某些情况下,此类系统使用超声波或电容传感检测器以识别穿过管路的气泡。但是测序设备上的此类本地硬件限于具有管路
的湿式平台,并且需要附加的处理、存储和分析资源以实施此类气泡检测方法。
[0007]除了用于在湿式测序平台中检测气泡的现有机制的低效之外,一些此类气泡检测方法限于测序设备上的特定硬件。如上所述,一些常规核酸测序系统试图通过利用基于硬件的气泡检测器来检测气泡。即使一些常规核酸测序系统可在管路或其他部件中包括传感器以检测气泡,但此类检测硬件不仅昂贵而且在干式测序平台中不可行。例如,干式测序平台经常对一次性消耗品执行流体操作,该一次性消耗品缺乏将流体汇聚入该消耗品中的管路。此类干式测序平台不能利用专用的气泡检测传感器,或者此类传感器由于需要昂贵的测序设备或可消耗的核苷酸样品玻片的庞大的重新设计而不切实际。

技术实现思路

[0008]本公开描述了提供益处和/或解决本领域的上述问题中的一个或多个的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。例如,所公开的系统使用机器学习模型来基于在此类测序运行期间的碱基检出期间捕获(或来源于此期间)的数据准确并且有效地检测气泡何时影响核酸测序运行。为了说明,所公开的系统可以在测序循环期间从测序平台接收识别核碱基检出的数据和识别此类核碱基检出的质量指标的数据。基于特定核碱基检出和针对质量指标的阈值标记,机器学习模型可以检测核苷酸样品玻片中气泡的存在。通过使用检出数据和质量指标,所公开的系统可在平台无关的方法中使用容易获得的测序数据,以使用唯一训练的机器学习模型来检测气泡。
[0009]在一些情况下,所公开的系统使用机器学习模型,该机器学习模型被训练成在测序循环期间识别核苷酸样品玻片(例如,流通池)的特定部分或单元(例如,区块)内的气泡。除了简单地检测气泡的存在之外,在一些示例中,所公开的系统还可以对不同的检测到的气泡(诸如油泡、空气气泡或重影泡)进行分类,或者其他在测序期间识别其他输出(诸如区块登记失败和掉落的区块)。
[0010]本公开的一个或多个实施方案的附加的特征部和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
[0011]各种实施方案将通过使用附图以附加的特征和细节来描述和解释,附图概述如下。
[0012]图1示出根据本公开的一个或多个实施方案的气泡检测系统可在其中操作的环境。
[0013]图2示出根据本公开的一个或多个实施方案的检测气泡的存在的气泡检测系统的概览图。
[0014]图3示出根据本公开的一个或多个实施方案的关于单通道、双通道和四通道测序数据操作的气泡检测系统的概览图。
[0015]图4A至图4C示出根据本公开的一个或多个实施方案的图解对应于不同误差分类的数据特征的示例性图表。
[0016]图5示出根据本公开的一个或多个实施方案的示例性气泡检测机器学习模型。
[0017]图6A至图6C示出根据一个或多个实施方案的训练气泡检测机器学习模型的气泡
检测系统,以及流通池内具有气泡的示例性空间图像。
[0018]图7示出根据本公开的一个或多个实施方案的用于检测气泡的存在的一系列动作。
[0019]图8示出根据本公开的一个或多个实施方案的示例性计算设备的方框图。
具体实施方式
[0020]本公开描述了气泡检测系统的一个或多个实施方案,该气泡检测系统利用机器学习模型基于在核酸测序运行期间捕获的(或来源于核酸测序运行的)数据来检测核苷酸样品玻片内气泡的存在。在一些实施方案中,例如,气泡检测系统访问或接收用于在测序循环期间核碱基检出的碱基检出数据和识别质量指标的质量数据,该质量指标估计在测序循环期间此类核碱基检出的误差。此类检出数据和质量数据可以特定于核苷酸样品玻片,例如流通池或玻片的一部分。气泡检测系统从检出数据和质量数据确定对应于至少一个核碱基的核碱基检出的子群(例如,腺嘌呤和鸟嘌呤碱基检出的子群)和满足阈值质量值的核苷酸检出的子群。基于作为输入的这些数据子群,气泡检测系统利用机器学习模型以检测核苷酸样品玻片内气泡的存在。在一些此类实施方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,所述系统包括:至少一个处理器;以及包括指令的非暂态计算机可读介质,所述指令当由所述至少一个处理器执行时使得所述系统:针对核苷酸样品玻片接收检出数据,所述检出数据包括核酸聚合物测序的循环的核碱基检出;针对所述核苷酸样品玻片接收包括质量指标的质量数据,所述质量指标估计所述循环的所述核碱基检出中的误差;从所述循环的所述核碱基检出中确定对应于至少一个核碱基的所述核碱基检出的第一子集和符合所述质量指标的阈值质量指标的所述核碱基检出的第二子集;以及利用基于所述核碱基检出的所述第一子集和所述核碱基检出的所述第二子集的气泡检测机器学习模型检测所述核苷酸样品玻片内的气泡的存在。2.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:接收所述核苷酸样品玻片的部分的所述检出数据和所述质量数据;以及检测所述核苷酸样品玻片的所述部分内所述气泡的所述存在。3.根据权利要求2所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过检测流通池的区块内的所述气泡来检测所述核苷酸样品玻片的所述部分内的所述气泡的所述存在。4.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过确定所述核酸聚合物测序的所述循环的腺嘌呤检出的子集、胸腺嘧啶检出的子集、胞嘧啶检出的子集或鸟嘌呤检出的子集中的至少一者以确定对应于所述至少一个核碱基的所述核碱基检出的所述第一子集。5.根据权利要求4所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过利用所述气泡检测机器学习模型的层从输入矩阵中提取特征部来检测所述气泡的所述存在,所述输入矩阵包括符合所述核酸聚合物测序的所述循环的所述阈值质量指标的腺嘌呤检出的所述子集、鸟嘌呤检出的所述子集和所述核碱基检出的所述第二子集。6.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过检测所述核苷酸样品玻片内的空气泡、油泡或重影泡中的至少一者以检测所述气泡的所述存在。7.根据权利要求1所述的系统,其中所述气泡检测机器学习模型包括卷积神经网络,所述卷积神经网络包括特征部提取层、分类层和所述特征部提取层与所述分类层之间的自适应最大池化层。8.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统通过以下项检测所述气泡的所述存在:利用所述气泡检测机器学习模型生成所述核苷酸样品玻片的部分包含所述气泡的概率;以及确定所述概率符合指示所述气泡的所述存在的阈值。
9.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少一个处理器执行时,使得所述系统基于以下项接收包括所述核碱基检出的所述检出数据:单通道数据,所述单通道数据包括针对所述核酸聚合物测序的给定循环的所述核苷酸样品玻片的每个部分的单个图像;双通道数据,所述双通道数据包括针对所述核酸聚合物测序的所述给定循环的所述核苷酸样品玻片的每个部分的两个图像;或者四通道数据,所述四通道数据包括针对所述核酸聚合物测序的所述给定循环的所述核苷酸样品玻片的每个部分的四个图像。10.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由至少...

【专利技术属性】
技术研发人员:B
申请(专利权)人:因美纳软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1