使用卷积的碱基识别制造技术

技术编号:27222383 阅读:24 留言:0更新日期:2021-02-04 11:42
公开了一种基于神经网络的碱基识别器,该碱基识别器检测和解释测序过程的静态、动态和机械特性,将在分析数据中每个序列周期处观察到的信息映射到核苷酸的潜在序列。基于神经网络的碱基识别器将特征工程化、降维、离散化和动力学建模的任务组合到一个端到端的学习框架中。特别是,基于神经网络的碱基识别器使用3D卷积、1D卷积和逐点卷积的组合来检测和解释诸如定相和预定相效应、空间串扰、发射重叠和衰落等检测偏差。衰落等检测偏差。衰落等检测偏差。

【技术实现步骤摘要】
【国外来华专利技术】使用卷积的碱基识别


[0001]所公开的技术涉及用于智能仿真的人工智能型计算机和数字化数据处理系统以及相应的数据处理方法和产品(即:基于知识的系统、推理系统和知识获取系统),并且包括用于不确定性推理的系统(例如:模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。尤其是,所公开的技术涉及利用诸如深度卷积神经网络等的深度神经网络来分析数据。
[0002]参考文献
[0003]出于所有目的,以下参考文献通过引用并入本文,如同在本文中做了充分的阐述一样:
[0004]2019年3月21日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,602号(代理人案号:ILLM 1008-1/IP-1693-PRV);
[0005]2019年3月21日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,618号(代理人案号:ILLM 1008-3/IP-1741-PRV);
[0006]2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国临时专利申请第62/821,681号(代理人案号:ILLM 1008-4/IP-1744-PRV);
[0007]2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国临时专利申请第62/821,766号(代理人案号:ILLM 1008-7/IP-1747-PRV);
[0008]2019年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING”的美国临时专利申请第62/821,724号(代理人案号:ILLM 1008-9/IP-1752-PRV);
[0009]2017年4月21日提交的随后于2017年10月26日公布为PCT公告第WO 2017/184997 Al号的名称为“PHOTONIC STUCTURE-BASED DEVICES AND COMPOSITIONS FOR USE IN LUMINESCENT IMAGING OF MULTIPLE SITES WITHIN A PIXEL,AND METHODS OF USING THE SAME”的PCT专利申请第PCT/US2017/028883号;
[0010]2016年8月17日提交并随后于2017年3月2日公布为PCT公告第WO 2017/034868 Al号的名称为“IN-LINE PRESSURE ACCUMULATOR AND FLOW-CONTROL SYSTEM FOR BIOLOGICAL OR CHEMICAL ASSAYS”的PCT专利申请第PCT/US2016/047253号;
[0011]2017年6月20日提交并随后于2017年12月28日公布为PCT公告第WO 2017/223041 Al号的名称为“SUPER-RESOLUTION MICROSCOPY”的PCT专利申请第PCT/US2017/038259号;
[0012]2016年3月22日提交并随后于2016年9月29日公布为US 2016/0281150 Al的名称为“METHODS,CARRIER ASSEMBLIES,AND SYSTEMS FOR IMAGING SAMPLES FOR BIOLOGICAL OR CHEMICAL ANALYSIS”的美国专利申请第15/077,182号;
[0013]2015年11月24日发布的名称为“SUPER RESOLUTION IMAGING”的美国专利第9,193,998B2号;
[0014]2018年4月10日发布的名称为“MICRODEVICES AND BIOSENSOR CARTRIDGES FOR BIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME”的美国专
利第9,937,497B2号;
[0015]2017年7月6日公布的名称为“SYSTEMIS AND METHODS FOR BOCHEMICAL ANALYSIS INCLUDING A BASE INSTRUMENT AND AREMOVABLE CARTRIDGE”的美国公告第US 2017/0189904Al号;
[0016]2015年3月11日提交并随后于2017年1月19日公布为US 2017/0016060 Al的名称为“DISPOSABLE,INTEGRATED MICROFLUIDIC CARTRIDGE AND METHODS OF MAKING AND USING SAME”的美国专利申请第15/125,124号;
[0017]2016年5月4日公布为EP公告第EP 2 173 467 Bl号的名称为“METHOD AND APPARATUS USING ELECTRIC FIELD FOR IMPROVED BIOLOGICAL ASSAYS”的欧洲专利申请第08781608.8号;
[0018]2016年3月10日提交并随后于2019年1月1日以美国专利第10,167,505 B2号获得专利权并发布的名称为“INTEGRATED SEQUENCING APPARATUSES AND METHODS OF USE”的美国专利申请第15/067,013号;以及
[0019]2013年4月26日提交并随后于2015年8月4日以美国专利第9,096,899 B2号获得专利权并发布的名称为“MICRODEVICES AND BIOSENSOR CARTRIDGES FOR BOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME”的美国专利申请第13/882,088号。

技术介绍

[0020]本节中所讨论的主题不能仅仅因为在本节中提及而被认为是现有技术。同样地,本节中所提及的或与作为
技术介绍
而提供的主题相关的问题不应被认为之前已经在现有技术中得到了认可。本节中的主题仅仅代表不同的方法,这些方法本身也可以对应于所述要求保护的技术的实施方式。
[0021]用于碱基识别的数据存在已知和未知的技术误差、偏差和错误的情况。碱基识别中的一个重大挑战是解释检测数据中的这些缺陷。用于碱基识别的动力学模型依赖于大量的技术专长和生物化学直觉。为了处理这些偏差,动力学模型使用显式编程进行特征工程化以及转换和校正矩阵的计算。
[0022]本专利技术提供了一种基于神经网络的碱基识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种神经网络实现的对分析物进行碱基识别的方法,所述方法包括:访问为测序运行的一系列测序周期生成的每周期图像块序列,其中所述每周期图像块中的像素包含关联分析物的强度数据,并且所述强度数据是通过配置成检测来自所述关联分析物的发射的相应光传感器针对一个或多个成像通道获得的;在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器对以下内容进行卷积:沿着时间维度的多个所述每周期图像块,并检测和解释由关联分析物的序列拷贝的异步读出引起的测序周期的后续测序周期之间的定相和预定相效应,沿空间维度的每个所述每周期图像块中的多个像素,并检测和解释由关联分析物的相应光传感器检测来自非关联分析物的发射引起的相邻分析物之间的空间串扰,以及沿着深度维度的每个所述成像通道,并检测和解释由染料发射光谱的重叠引起的所述成像通道之间的发射重叠,以及由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,产生至少一个输出特征;补充因多个3D卷积滤波器对具有一个或多个像素的成像通道特定的和交叉周期强度数据特征的每周期图像块序列进行卷积而产生的输出特征,所述像素包含一个或多个待进行碱基识别的关联分析物的强度数据;从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用一维(1D)卷积的级联并产生另外的输出特征,所述级联使用具有不同感受野的1D卷积并检测由所述定相和预定相效应引起的不同程度的异步读出;对所述另外的输出特征应用逐点卷积,并产生最终输出特征;以及通过输出层处理所述最终输出特征,并在每个所述测序周期产生所述关联分析物的碱基识别。2.根据权利要求1所述的神经网络实现的方法,还包括:针对待进行碱基识别的关联分析物,为每个所述成像通道产生最终输出特征;归一化所述成像通道的最终输出特征中的未归一化的每周期值;基于阈值将所述归一化的每周期值转换成每周期二进制值;以及基于所述最终输出特征中相应位置处的所述每周期二进制值,在每个所述测序周期对所述关联分析物进行碱基识别。3.根据权利要求2所述的神经网络实现的方法,其中,所述输出层包括sigmoid函数,所述sigmoid函数将在所述最终输出特征中的所述未归一化的每周期值压缩到0和1之间;以及将低于所述阈值的那些压缩后的每周期值指定为0值,并且将高于所述阈值的那些压缩后的每周期值指定为1值。4.根据权利要求1所述的神经网络实现的方法,其中,所述输出层包括softmax函数,所述softmax函数产生在测序周期结合在待进行碱基识别为A、C、T和G的关联分析物中的碱基的指数归一化概率分布;以及
基于所述分布将所述碱基分类为A、C、T或G。5.根据权利要求1所述的神经网络实现的方法,还包括:所述3D卷积在每个所述成像通道上分别应用各自的卷积内核,并为每个所述成像通道产生至少一个中间输出特征;所述3D卷积进一步组合所述成像通道的中间输出特征并产生所述输出特征,其中,所述输出特征表示在所述成像通道之间混合的信息;以及从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用所述1D卷积的级联。6.根据权利要求1所述的神经网络实现的方法,还包括:所述3D卷积在每个所述成像通道上分别应用各自的卷积内核,并为每个所述成像通道产生至少一个中间输出特征;所述3D卷积进一步组合所述成像通道的中间输出特征并产生所述输出特征,其中,所述输出特征表示在所述成像通道之间混合的信息;以及从补充有所述强度数据特征的所述输出特征作为起始输入开始,应用多个1D卷积的级联,使得所述多个级联中的每个级联对应于一个所述成像通道,并且独立于另一个级联对所述输入进行操作。7.根据权利要求1所述的神经网络实现的方法,还包括:所述3D卷积在每个所述成像通道上分别应用各自的卷积内核,并为每个所述成像通道产生至少一个中间输出特征;所述3D卷积不组合所述成像通道的中间输出特征,而是使它们可用作成像通道特定的输出特征;用来自一个或多个所述像素的所述对应成像通道的交叉周期强度数据特征来补充所述成像通道特定的输出特征,所述像素包含一个或多个待进行碱基识别的所述关联分析物的所述强度数据;以及从补充有所述强度数据特征的所述成像通道特定的输出特征作为起始输入开始,应用所述1D卷积的级联。8.根据权利要求1所述的神经网络实现的方法,还包括:所述3D卷积在每个所述成像通道上分别应用各自的卷积内核,并为每个所述成像通道产生至少一个中间输出特征;所述3D卷积不组合所述成像通道的中间输出特征,而是使它们可用作成像通道特定的输出特征;用来自一个或多个所述像素的所述对应成像通道的交叉周期强度数据特征来补充所述成像通道特定的输出特征,所述像素包含一个或多个待进行碱基识别的所述关联分析物的所述强度数据;以及从补充有所述强度数据特征的所述成像通道特定的输出特征作为起始输入开始,应用1D卷积的多个级联,使得所述多个级联中的每个级联对应于一个所述成像通道,并且独立于另一个级联对所述输入进行操作。9.根据权利要求1所述的神经网络实现的方法,还包括:所述1D卷积在滑动窗的基础上混合每个所述输出特征和所述强度数据特征的各个每
周期元素之间的信息,并针对每个所述输出特征和所述强度数据特征产生至少一个中间输出特征;以及所述1D卷积在每周期元素的基础上累积所述输出特征的中间输出特征的信息,并产生另外的输出特征。10.根据权利要求9所述的神经网络实现的方法,其中,所述滑动窗的大小基于所述1D卷积的感受野,并且在所述级联中变化。11.根据权利要求1所述的神经网络实现的方法,还包括:应用所述1D卷积和转置卷积的组合,而不是所述1D卷积的级联,其中,所述组合在所述1D卷积和所述转置卷积的应用之间交替。12.根据权利要求1所述的神经网络实现的方法,还包括:所述逐点卷积分别在每周期元素的基础上对另外的输出特征进行卷积,并为每个所述另外的输出特征产生至少一个中间输出特征;以及所述逐点卷积在每周期元素的基础上累积所述另外的输出特征的中间输出特征的信息,并产生至少一个最终输出特征。13.根据权利要求1所述的神经网络实现的方法,还包括:基于质量评分映射,使用所述成像通道的所述最终输出特征中的所述归一化每周期值来将质量评分分配给由所述输出层发出的碱基识别预测,其中,所述质量评分映射通过以下步骤确定:计算基于训练数据做出的碱基识别预测的预测错误率,并确定相应的预测质量评分;确定所述预测质量评分和根据从测试数据得出的经验碱基识别错误率确定的经验质量评分之间的拟合;以及基于所述拟合将所述预测质量评分与所述经验质量评分相关联。14.根据权利要求1所述的神经网络实现的方法,还包括使用基于反向传播的梯度更新技术来学习由所述3D卷积、所述1D卷积和所述逐点卷积应用的卷积滤波器的内核权重,所述基于反向传播的梯度更新技术将由所述输出层发出的所述碱基识别预测与真值进行逐步匹配。15.根据权利要求14所述的神经网络实现的方法,其中,所述真值包括每个所述成像通道的每周期二进制值,还包括:所述基于反向传播的梯度更新技术计算所述真值中的所述每周期二进制值和所述成像通道的所述最终输出特征中的相应每周期二进制值之间的误差。16.根据权利要求14所述的神经网络实现的方法,其中,所述真值包括表征正确碱基的独热编码,还包括:基于反向传播的梯度更新技术计算所述真值中的所述独热编码和由所述softmax函数产生的所述指数归一化概率分布之间的误差。17.根据权利要求14所述的神经网络实现的方法,还包括改变所述学习的学习速率。18.根据权利要求1所述的神经网络实现的方法,还包括从其上布置有所述分析物的流动槽的分块的相应每周期图像中提取所述每周期图像块。19.根据权利要求18所述的神经网络实现的方法,还包括通过从所述分块的重叠区域提取每周期图像块,使得所提取的每周期图像块具有重叠像素,来对遍及所述分块布置的
分析物进行碱基识别。20.根据权利要求1所述的神经网络实现的方法,其中,所述1D卷积使用双线性形式的乘积来混合信息。21.根据权利要求1所述的神经网络实现的方法,还包括在所述输出特征上应用非线性激活函数,并产生激活的输出特征以通过所述1D卷积进行处理。22.根据权利要求1所述的神经网络实现的方法,还包括在所述另外的输出特征上应用非线性激活函数,并产生激活的另外的输出特征以通过所述逐点卷积进行处理。23.根据权利要求1所述的神经网络实现的方法,还包括使用批量归一化和所述1D卷积。24.根据权利要求1所述的神经网络实现的方法,还包括使用批量归一化和所述逐点卷积。25.根据权利要求1所述的神经网络实现的方法,还包括在所述级联中的每个1D卷积中使用多个1D卷积滤波器。26.根据权利要求1所述的神经网络实现的方法,还包括在所述逐点卷积中使用多个逐点卷积滤波器,使得所述多个逐点卷积滤波器中的每个逐点卷积滤波器对应于所述成像通道之一,并且独立于另一个逐点卷积滤波器对所述另外的输出特征进行操作。27.根据权利要求1所述的神经网络实现的方法,其中,所述3D卷积、所述1D卷积和所述逐点卷积使用SAME填充。28.根据权利要求1所述的神经网络实现的方法,还包括:所述3D卷积滤波器对所述每周期图像块序列进行卷积,以检测和解释由于衰落引起的信号衰减。29.一种神经网络实现的对分析物进行碱基识别的方法,所述方法包括:访问针对测序运行的一系列测序周期生成的每周期图像块序列,其中所述每周期图像块中的每个像素与分析物相关联,其中所述每周期图像块以包含目标关联分析物的强度数据的中心像素为中心,其中所述每周期图像块中的非中心像素包含邻近所述目标关联分析物的关联分析物的强度数据,并且其中所述强度数据是针对一个或多个成像通道获得的;在滑动卷积窗的基础上对所述每周期图像块序列应用三维(3D)卷积,使得在卷积窗中,3D卷积滤波器对以下内容进行卷积:沿着时间维度的多个所述每周期图像块,并检测和解释由于关联分析物的序列拷贝的异步读出而导致的来自一个或多个后续测序周期和一个或多个先前测序周期的当前测序周期中的定相和预定相效应,沿着空间维度的所述中心像素和所述非中心像素,并检测和解释由于所述目标关联分析物的相应光传感器检测到来自相邻关联分析物的发射而导致的来自所述中心像素中的所述非中心像素的空间串扰,以及沿着深度维度的每个所述成像通道,并检测和解释由于染料发射光谱的重叠而导致的所述成像通道之间的发射重叠,以及由于在所述滑动卷积窗的基础上对所述每周期图像块序列进行卷积,...

【专利技术属性】
技术研发人员:E
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1