当前位置: 首页 > 专利查询>宽腾矽公司专利>正文

使用机器学习和相关系统和方法进行蛋白质识别的技术技术方案

技术编号:37296865 阅读:31 留言:0更新日期:2023-04-21 22:43
本文描述了用于使用由蛋白质测序装置收集的数据来识别多肽的系统和技术。蛋白质测序装置可以收集在试剂与多肽的氨基酸的结合相互作用期间从所检测到的发光标签的光发射获得的数据。光发射可能是由于对发光标签施加激发能量而产生的。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。对于多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。白质的氨基酸序列进行匹配。白质的氨基酸序列进行匹配。

【技术实现步骤摘要】
【国外来华专利技术】使用机器学习和相关系统和方法进行蛋白质识别的技术

技术介绍

[0001]蛋白质组学已成为生物系统研究中基因组学和转录组学的重要且必要的补充。对单个生物体的蛋白质组学分析允许深入了解细胞过程和反应模式,从而改进诊断和治疗策略。蛋白质结构、组成和修饰的复杂性对蛋白质的识别提出了挑战。

技术实现思路

[0002]本文描述了使用由蛋白质测序装置收集的数据来识别蛋白质的系统和技术。蛋白质测序装置可以收集试剂与蛋白质氨基酸的结合相互作用的数据。例如,该数据可以包括从向发光标签施加激发能量而导致的光发射中检测到的数据。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。针对多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。
[0003]根据一些方面,提供了一种用于识别多肽的方法,所述方法包括使用至少一个计算机硬件处理器来执行访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
[0004]根据一些方面,提供了一种用于识别多肽的系统,所述系统包括至少一个处理器,以及至少一个存储指令的非暂时性计算机可读存储介质,当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
[0005]根据一些方面,提供了至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
[0006]根据一些方面,提供了一种训练用于识别多肽的氨基酸的机器学习模型的方法,所述方法包括使用至少一个计算机硬件处理器来执行访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
[0007]根据一些方面,提供了一种训练用于识别多肽的氨基酸的机器学习模型的系统,所述系统包括至少一个处理器;以及至少一个存储指令的非暂时性计算机可读存储介质,
当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
[0008]根据一些方面,提供了至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
[0009]前述装置和方法实施例可以用上文描述的或下文更详细描述的方面、特征和动作的任何适当组合来实现。当结合附图阅读以下描述时,可以更充分地理解本教导的这些和其他方面、实施例和特征。
附图说明
[0010]将参考以下附图描述本申请的各个方面和实施例。应当理解,附图不一定按比例绘制。出现在多个图中的项目在它们出现的所有图中由相同的附图标记表示。为清楚起见,并非每个组件都可以在每张图中标记。
[0011]图1A示出了根据本文所述的技术的一些实施例的标记的亲和试剂的示例配置,包括选择性地与一种或多种类型的氨基酸结合的标记的酶和标记的适体;
[0012]图1B示出了根据本文所述的技术的一些实施例的使用标记的亲和试剂进行多肽测序的基于降解的过程;
[0013]图1C示出了根据本文所述的技术的一些实施例的使用标记的多肽进行多肽测序的过程;
[0014]图2A

2B示出了根据本文所述的技术的一些实施例的通过检测由光发射产生的一系列信号脉冲来进行多肽测序,其中光发射源于用发光标签标记的亲和试剂之间的结合事件;
[0015]图2C示出了根据本文所述的技术的一些实施例的通过迭代末端氨基酸检测和切割进行多肽测序的实例;
[0016]图2D示出了根据本文所述的技术的一些实施例的使用分别选择性地结合和切割不同类型末端氨基酸的标记的外肽酶进行实时多肽测序的示例;
[0017]图3示出了根据本文所述的技术的一些实施例的通过评估末端氨基酸与标记的亲和试剂和标记的非特异性外肽酶的结合相互作用进行的实时多肽测序的示例;
[0018]图4示出了根据本文所述的技术的一些实施例的通过评估末端和内部氨基酸与标记的亲和试剂和标记的非特异性外肽酶的结合相互作用进行的实时多肽测序的示例;
[0019]图5A示出了根据本文所述的技术的一些实施例的可以在其中实现本文所述的技术的一些方面的说明性系统;
[0020]图5B

C示出了根据本文所述的技术的一些实施例的在图5A中示出的蛋白质测序装置502的组件;
[0021]图6A是根据本文所述的技术的一些实施例的训练用于识别氨基酸的机器学习模型的示例过程;
[0022]图6B是根据本文所述的技术的一些实施例的使用从图6A的过程中获得的用于识
别多肽的机器学习模型的示例过程;
[0023]图7是根据本文所述的技术的一些实施例的用于向机器学习模型提供输入的示例过程;
[0024]图8是根据本文所述的技术的一些实施例从用于识别多肽的机器学习模型获得的输出的示例;
[0025]图9A示出了根据本文所述的技术的一些实施例的可以从试剂与氨基酸的结合相互作用获得的示例性数据;
[0026]图9B示出了根据本文所述的技术的一些实施例的用于排列图9A的数据的示例数据结构;
[0027]图10A示出了根据本文所述的技术的一些实施例的用于识别机器学习模型的集群的聚类数据点的图;
[0028]图10B示出了根据本文所述的技术的一些实施例的根据图10A的聚类数据点识别的集群的图;
[0029]图10C示出了根据本文所述的技术的一些实施例的图10A的每个集群的示例高斯混合模型(GMM)图;
[0030]图11是根据本文所述的技术的一些实施例的用于识别氨基酸的示例性卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种识别多肽的方法,所述方法包括:使用至少一个计算机硬件处理器来执行:访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。2.根据权利要求1所述的方法,其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括:第一氨基酸存在于所述位置的第一可能性;以及第二氨基酸存在于所述位置的第二可能性。3.根据权利要求1或权利要求2中任一项所述的方法,其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。4.根据权利要求3所述的方法,其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括:基于所获得的输出生成隐马尔可夫模型(HMM);以及将所述HMM与所述多个氨基酸序列之一进行匹配。5.根据权利要求1所述的方法,其中所述机器学习模型包括以下之一:高斯混合模型(GMM);包含多个集群的聚类模型,所述集群的每一个与一个或多个氨基酸相关联;深度学习模型;卷积神经网络;或者联结时序分类(CTC)拟合神经网络。6.根据权利要求1所述的方法,其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。7.根据权利要求1所述的方法,其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。8.根据权利要求1所述的方法,其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。9.根据权利要求1所述的方法,其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出:概率分布,其针对多种氨基酸的每一种,指示所述氨基酸存在于所述位置的概率。10.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。11.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。12.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互
作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。13.根据权利要求1所述的方法,其中将所述数据作为输入提供给所述经训练的机器学习模型还包括:识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;以及将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。14.根据权利要求13所述的方法,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。15.根据权利要求13所述的方法,其中识别所述数据的所述多个部分包括:识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。16.根据权利要求13所述的方法,其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。17.根据权利要求13所述的方法,其中识别所述数据的所述多个部分包括:根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述统计数据的值偏离阈值量;以及基于所识别的一个或多个点识别所述数据的所述多个部分。18.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。19.根据权利要求18所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。20.根据权利要求18所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。21.根据权利要求18所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。22.根据权利要求18所述的方法,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。23.根据权利要求1所述的方法,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构,其中:第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。24.根据权利要求18所述的方法,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。25.根据权利要求18所述的方法,其中所述一个或多个发光标签与所述多肽的至少一
些氨基酸相关联。26.根据权利要求1所述的方法,其中所述多个位置包括所述多肽内的至少一个相对位置。27.一种用于识别多肽的系统,所述系统包括:至少一个处理器;以及至少一个存储指令的非暂时性计算机可读存储介质,当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。28.根据权利要求27所述的系统,其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括:第一氨基酸存在于所述位置的第一可能性;以及第二氨基酸存在于所述位置的第二可能性。29.根据权利要求27或权利要求28中任一项所述的系统,其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。30.根据权利要求29所述的系统,其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括:基于所获得的输出生成隐马尔可夫模型(HMM);以及将所述HMM与所述多个氨基酸序列之一进行匹配。31.根据权利要求27所述的系统,其中所述机器学习模型包括以下之一:高斯混合模型(GMM);包含多个集群的聚类模型,所述集群的每一个与一个或多个氨基酸相关联;深度学习模型;卷积神经网络;或者联结时序分类(CTC)拟合神经网络。32.根据权利要求27所述的系统,其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。33.根据权利要求27所述的系统,其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。34.根据权利要求27所述的系统,其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。35.根据权利要求27所述的系统,其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出:概率分布,其针对多种氨基酸的每一种,指示所述氨基酸存在于所述位置的概率。36.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测
到的信号脉冲的持续时间。37.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。38.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。39.根据权利要求27所述的系统,其中将所述数据作为输入提供给所述经训练的机器学习模型还包括:识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;以及将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。40.根据权利要求39所述的系统,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。41.根据权利要求39所述的系统,其中识别所述数据的所述多个部分包括:识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。42.根据权利要求39所述的系统,其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。43.根据权利要求39所述的系统,其中识别所述数据的所述多个部分包括:根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述统计数据的值偏离阈值量;以及基于所识别的一个或多个点识别所述数据的所述多个部分。44.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。45.根据权利要求44所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。46.根据权利要求44所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。47.根据权利要求44所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。48.根据权利要求44所述的系统,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。49.根据权利要求27所述的系统,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构,其中:第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。50.根据权利要求44所述的系统,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。51.根据权利要求44所述的系统,其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。52.根据权利要求27所述的系统,其中所述多个位置包括所述多肽内的至少一个相对位置。53.至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。54.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括:第一氨基酸存在于所述位置的第一可能性;以及第二氨基酸存在于所述位置的第二可能性。55.根据权利要求53或权利要求54中任一项所述的至少一个非暂时性计算机可读存储介质,其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。56.根据权利要求55所述的至少一个非暂时性计算机可读存储介质,其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括:基于所获得的输出生成隐马尔可夫模型(HMM);以及将所述HMM与所述多个氨基酸序列之一进行匹配。57.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述机器学习模型包括以下之一:高斯混合模型(GMM);包含多个集群的聚类模型,所述集群的每一个与一个或多个氨基酸相关联;深度学习模型;卷积神经网络;或者联结时序分类(CTC)拟合神经网络。58.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。59.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。60.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。
61.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出:概率分布,其针对多种氨基酸的每一种,指示所述氨基酸存在于所述位置的概率。62.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。63.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。64.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。65.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中将所述数据作为输入提供给所述经训练的机器学习模型还包括:识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;以及将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。66.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。67.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括:识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分68.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。69.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括:根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述统计数据的值偏离阈值量;以及基于所识别的一个或多个点识别所述数据的所述多个部分。70.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。71.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
72.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。73.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。74.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。75.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构,其中:第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。76.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。77.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。78.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述多个位置包括所述多肽内的至少一个相对位置。79.一种训练用于识别多肽的氨基酸的机器学习模型的方法,所述方法包括:使用至少一个计算机硬件处理器来执行:访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。80.根据权利要求79所述的方法,其中所述机器学习模型包括混合模型。81.根据权利要求80所述的方法,其中所述混合模型包括高斯混合模型(GMM)。82.根据权利要求79所述的方法,其中所述机器学习模型包括深度学习模型。83.根据权利要求82所述的方法,其中所述深度学习模型包括卷积神经网络。84.根据权利要求82所述的方法,其中所述深度学习模型包括联结时序分类(CTC)拟合神经网络。85.根据权利要求79所述的方法,其中使用所述训练数据训练所述机器学习模型包括将监督训练算法应用于所述训练数据。86.根据权利要求79所述的方法,其中使用所述训练数据训练所述机器学习模型包括将半监督训练算法应用于所述训练数据。87.根据权利要求79所述的方法,其中使用所述训练数据训练所述机器学习模型包括将无监督训练算法应用于所述训练数据。88.根据权利要求79所述的方法,其中所述机器学习模型包括聚类模型,并且训练所述机器学习模型包括识别所述聚类模型的多个集群,所述多个集群的每一个与一个或多个氨
基酸相关联。89.根据权利要求79所述的方法,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。90.根据权利要求79所述的方法,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。91.根据权利要求79所述的方法,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。92.根据权利要求79所述的方法,还包括训练所述机器学习模型以针对多肽中的多个位置的每一个输出一个或多个相应氨基酸存在于所述位置的一种或多种可能性。93.根据权利要求7...

【专利技术属性】
技术研发人员:迈克尔
申请(专利权)人:宽腾矽公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1