用于基于人工智能的测序的训练数据生成制造技术

技术编号:27222390 阅读:39 留言:0更新日期:2021-02-04 11:42
本发明专利技术所公开的技术涉及生成基准真值训练数据以训练用于簇元数据确定任务的基于神经网络的模板生成器。具体地,所述技术涉及:访问测序图像;从碱基检出器获得将所述测序图像中的每个子像素分类为四种碱基(A、C、T和G)中的一种碱基的碱基检出;生成簇映射图,该簇映射将簇识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域;基于该簇映射图中的该不相交区域来确定簇元数据;以及使用该簇元数据来生成该基准真值训练数据,以用于训练用于该簇元数据确定任务的该基于神经网络的模板生成器。模板生成器。模板生成器。

【技术实现步骤摘要】
【国外来华专利技术】Scoring”的美国非临时专利申请第16/826,134号(代理人案卷号ILLM 1008-19/IP-1747-US);
[0017]2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV);
[0018]同时提交的名称为“Artificial Intelligence-Based Generation of Sequencing Metadata”的PCT专利申请No.PCT________(代理人案卷号ILLM 1008-22/IP-1741-PCT),该专利申请随后公开为PCT公布No.WO_________;
[0019]同时提交的名称为“Artificial Intelligence-Based Base Calling”的PCT专利申请No.PCT_______(代理人案卷号ILLM 1008-23/IP-1744-PCT),该专利申请随后公开为PCT公布No.WO________本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种生成基准真值训练数据以训练用于簇元数据确定任务的基于神经网络的模板生成器的计算机实现的方法,所述方法包括:访问在测序运行期间生成的一系列图像集,所述一系列图像集中的每个图像集是在所述测序运行的相应测序循环期间生成的,所述一系列图像集中的每个图像描绘簇及其周围背景,所述一系列图像集中的每个图像具有在像素域中的像素,并且所述像素中的每个像素被划分成子像素域中的多个子像素;从碱基检出器获得将所述子像素中的每个子像素分类为四种碱基(A、C、T和G)中的一种的碱基检出,从而在所述测序运行的多个测序循环中针对所述子像素中的每个子像素产生碱基检出序列;生成簇映射图,所述簇映射图将所述簇识别为共享基本上匹配的碱基检出序列的邻接子像素的不相交区域;基于所述簇映射图中的所述不相交区域来确定簇元数据,其中所述簇元数据包括簇中心、簇形状、簇尺寸、簇背景和/或簇边界;以及使用所述簇元数据来生成基准真值训练数据,以用于训练用于所述簇元数据确定任务的基于神经网络的模板生成器,其中所述基准真值训练数据包括衰减映射图、三元映射图或二元映射图,其中训练所述基于神经网络的模板生成器以基于所述基准真值训练数据来产生所述衰减映射图、所述三元映射图或所述二元映射图作为输出,并且其中,在推断期间执行所述簇元数据确定任务时,所述簇元数据继而根据由所训练的基于神经网络的模板生成器产生作为所述输出的所述衰减映射图、所述三元映射图或所述二元映射图来确定。2.根据权利要求1所述的计算机实现的方法,所述方法还包括:将从由所述基于神经网络的模板生成器产生作为所述输出的所述衰减映射图、所述三元映射图或所述二元映射图导出的所述簇元数据用于由基于神经网络的碱基检出器进行碱基检出,以便增加高通量核酸测序技术中的通量。3.根据权利要求1至2中任一项所述的计算机实现的方法,所述方法还包括:通过将不属于所述不相交区域中的任一个不相交区域的那些子像素识别为背景来生成所述簇映射图。4.根据权利要求1至3中任一项所述的计算机实现的方法,其中所述簇映射图识别两个邻接子像素之间的簇边界部分,所述两个邻接子像素的碱基检出序列基本上不匹配。5.根据权利要求1至4中任一项所述的计算机实现的方法,其中基于以下项来生成所述簇映射图:在由所述碱基检出器确定的所述簇的初始中心坐标处识别原点子像素;以及通过以所述原点子像素开始并以连续邻接的非原点子像素继续,对基本上匹配的碱基检出序列进行广度优先搜索。6.根据权利要求1至5中任一项所述的计算机实现的方法,所述方法还包括:通过将所述簇映射图的所述不相交区域的质心计算为形成所述不相交区域的相应邻接子像素的坐标的平均值来确定所述簇的超定位中心坐标;以及将所述簇的所述超定位中心坐标存储在所述存储器中,以用作用于训练所述基于神经
网络的模板生成器的所述基准真值训练数据。7.根据权利要求6所述的计算机实现的方法,所述方法还包括:在所述簇的所述超定位中心坐标处识别所述簇映射图的所述不相交区域中的质心子像素;使用插值法对所述簇映射图进行上采样,并且将所上采样的簇映射图存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;以及在所上采样的簇映射图中,基于衰减因子将值分配给所述不相交区域中的每个邻接子像素,所述衰减因子与邻接子像素距所述邻接子像素所属的不相交区域中的质心子像素的距离成比例。8.根据权利要求7所述的计算机实现的方法,所述方法还包括:从所上采样的簇映射图生成所述衰减映射图,所述衰减映射图基于所述邻接子像素的分配值来表达所述不相交区域中的所述邻接子像素和被识别为所述背景的所述子像素;以及将所述衰减映射图存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。9.根据权利要求8所述的计算机实现的方法,所述方法还包括:在所上采样的簇映射图中,逐簇地将所述不相交区域中的所述邻接子像素分类为属于同一簇的簇内部子像素,将所述质心子像素分类为簇中心子像素,将包含所述簇边界部分的子像素分类为边界子像素,并且将被识别为所述背景的所述子像素分类为背景子像素;以及将所述分类存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。10.根据权利要求1至9中任一项所述的计算机实现的方法,所述方法还包括:逐簇地将所述簇内部子像素、所述簇中心子像素、所述边界子像素和所述背景子像素的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据;以用于对所述簇映射图进行上采样的因子来缩小所述坐标;以及逐簇地将所缩小的坐标存储在所述存储器中,以用作用于训练所述基于神经网络的模板生成器的所述基准真值训练数据。11.根据权利要求1至10中任一项所述的计算机实现的方法,所述方法还包括:针对流通池的多个区块生成簇映射图;将所述簇映射图存储在存储器中,并且基于所述簇映射图来确定所述区块中的簇的所述簇元数据,包括所述簇中心、所述簇形状、所述簇尺寸、所述簇背景和/或所述簇边界;在所述区块中的所述簇的所上采样的簇映射图中,逐簇地将子像素分类为属于同一簇的簇内部子像素、簇中心子像素、边界子像素和背景...

【专利技术属性】
技术研发人员:A
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1