使用机器学习和相关系统和方法进行蛋白质识别的技术技术方案

技术编号：37296865 阅读：31 留言：0更新日期：2023-04-21 22:43

本文描述了用于使用由蛋白质测序装置收集的数据来识别多肽的系统和技术。蛋白质测序装置可以收集在试剂与多肽的氨基酸的结合相互作用期间从所检测到的发光标签的光发射获得的数据。光发射可能是由于对发光标签施加激发能量而产生的。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。对于多肽中的多个位置的每一个，输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。白质的氨基酸序列进行匹配。白质的氨基酸序列进行匹配。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用机器学习和相关系统和方法进行蛋白质识别的技术

技术介绍

[0001]蛋白质组学已成为生物系统研究中基因组学和转录组学的重要且必要的补充。对单个生物体的蛋白质组学分析允许深入了解细胞过程和反应模式，从而改进诊断和治疗策略。蛋白质结构、组成和修饰的复杂性对蛋白质的识别提出了挑战。

技术实现思路

[0002]本文描述了使用由蛋白质测序装置收集的数据来识别蛋白质的系统和技术。蛋白质测序装置可以收集试剂与蛋白质氨基酸的结合相互作用的数据。例如，该数据可以包括从向发光标签施加激发能量而导致的光发射中检测到的数据。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。针对多肽中的多个位置的每一个，输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。
[0003]根据一些方面，提供了一种用于识别多肽的方法，所述方法包括使用至少一个计算机硬件处理器来执行访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据；将所述数据作为输入提供给经过训练的机器学习模型以获得输出，针对所述多肽中的多个位置的每一个，所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性；以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
[0004]根据一些方面，提供了一种用于识别多肽的系统，所述系统包括至少一个处理器，以及至少一个存储指令的非暂时性计算机可读存储介质，当被所述至少一个处理器执行时，所述指令使所述至少一个处理器执行一种方法，所述方法包括访...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种识别多肽的方法，所述方法包括：使用至少一个计算机硬件处理器来执行：访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据；将所述数据作为输入提供给经过训练的机器学习模型以获得输出，针对所述多肽中的多个位置的每一个，所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性；以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。2.根据权利要求1所述的方法，其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括：第一氨基酸存在于所述位置的第一可能性；以及第二氨基酸存在于所述位置的第二可能性。3.根据权利要求1或权利要求2中任一项所述的方法，其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。4.根据权利要求3所述的方法，其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括：基于所获得的输出生成隐马尔可夫模型(HMM)；以及将所述HMM与所述多个氨基酸序列之一进行匹配。5.根据权利要求1所述的方法，其中所述机器学习模型包括以下之一：高斯混合模型(GMM)；包含多个集群的聚类模型，所述集群的每一个与一个或多个氨基酸相关联；深度学习模型；卷积神经网络；或者联结时序分类(CTC)拟合神经网络。6.根据权利要求1所述的方法，其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。7.根据权利要求1所述的方法，其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。8.根据权利要求1所述的方法，其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。9.根据权利要求1所述的方法，其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出：概率分布，其针对多种氨基酸的每一种，指示所述氨基酸存在于所述位置的概率。10.根据权利要求1所述的方法，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值，每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。11.根据权利要求1所述的方法，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值，每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。12.根据权利要求1所述的方法，其中一种或多种试剂与所述多肽的氨基酸的结合相互
作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。13.根据权利要求1所述的方法，其中将所述数据作为输入提供给所述经训练的机器学习模型还包括：识别所述数据的多个部分，每个部分对应于所述结合相互作用的相应一个；以及将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。14.根据权利要求13所述的方法，其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。15.根据权利要求13所述的方法，其中识别所述数据的所述多个部分包括：识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点；以及基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。16.根据权利要求13所述的方法，其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。17.根据权利要求13所述的方法，其中识别所述数据的所述多个部分包括：根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值；识别所述数据中的一个或多个点，在这些点处，所述至少一个特性的值相对于所述统计数据的值偏离阈值量；以及基于所识别的一个或多个点识别所述数据的所述多个部分。18.根据权利要求1所述的方法，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。19.根据权利要求18所述的方法，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值，每个波长值指示在结合相互作用期间发射的光的波长。20.根据权利要求18所述的方法，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。21.根据权利要求18所述的方法，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。22.根据权利要求18所述的方法，其中所述光发射响应于一系列光脉冲，并且针对所述光脉冲的至少一些的每一个，所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。23.根据权利要求1所述的方法，其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构，其中：第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子；以及第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。24.根据权利要求18所述的方法，其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。25.根据权利要求18所述的方法，其中所述一个或多个发光标签与所述多肽的至少一
些氨基酸相关联。26.根据权利要求1所述的方法，其中所述多个位置包括所述多肽内的至少一个相对位置。27.一种用于识别多肽的系统，所述系统包括：至少一个处理器；以及至少一个存储指令的非暂时性计算机可读存储介质，当被所述至少一个处理器执行时，所述指令使所述至少一个处理器执行一种方法，所述方法包括：访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据；将所述数据作为输入提供给经过训练的机器学习模型以获得输出，针对所述多肽中的多个位置的每一个，所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性；以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。28.根据权利要求27所述的系统，其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括：第一氨基酸存在于所述位置的第一可能性；以及第二氨基酸存在于所述位置的第二可能性。29.根据权利要求27或权利要求28中任一项所述的系统，其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。30.根据权利要求29所述的系统，其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括：基于所获得的输出生成隐马尔可夫模型(HMM)；以及将所述HMM与所述多个氨基酸序列之一进行匹配。31.根据权利要求27所述的系统，其中所述机器学习模型包括以下之一：高斯混合模型(GMM)；包含多个集群的聚类模型，所述集群的每一个与一个或多个氨基酸相关联；深度学习模型；卷积神经网络；或者联结时序分类(CTC)拟合神经网络。32.根据权利要求27所述的系统，其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。33.根据权利要求27所述的系统，其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。34.根据权利要求27所述的系统，其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。35.根据权利要求27所述的系统，其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出：概率分布，其针对多种氨基酸的每一种，指示所述氨基酸存在于所述位置的概率。36.根据权利要求27所述的系统，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值，每个脉冲持续时间值指示针对结合相互作用检测
到的信号脉冲的持续时间。37.根据权利要求27所述的系统，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值，每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。38.根据权利要求27所述的系统，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。39.根据权利要求27所述的系统，其中将所述数据作为输入提供给所述经训练的机器学习模型还包括：识别所述数据的多个部分，每个部分对应于所述结合相互作用的相应一个；以及将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。40.根据权利要求39所述的系统，其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。41.根据权利要求39所述的系统，其中识别所述数据的所述多个部分包括：识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点；以及基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。42.根据权利要求39所述的系统，其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。43.根据权利要求39所述的系统，其中识别所述数据的所述多个部分包括：根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值；识别所述数据中的一个或多个点，在这些点处，所述至少一个特性的值相对于所述统计数据的值偏离阈值量；以及基于所识别的一个或多个点识别所述数据的所述多个部分。44.根据权利要求27所述的系统，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。45.根据权利要求44所述的系统，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值，每个波长值指示在结合相互作用期间发射的光的波长。46.根据权利要求44所述的系统，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。47.根据权利要求44所述的系统，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。48.根据权利要求44所述的系统，其中所述光发射响应于一系列光脉冲，并且针对所述光脉冲的至少一些的每一个，所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。49.根据权利要求27所述的系统，其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构，其中：第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子；以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。50.根据权利要求44所述的系统，其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。51.根据权利要求44所述的系统，其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。52.根据权利要求27所述的系统，其中所述多个位置包括所述多肽内的至少一个相对位置。53.至少一个存储指令的非暂时性计算机可读存储介质，当被至少一个处理器执行时，所述指令使所述至少一个处理器执行一种方法，所述方法包括：访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据；将所述数据作为输入提供给经过训练的机器学习模型以获得输出，针对所述多肽中的多个位置的每一个，所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性；以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。54.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括：第一氨基酸存在于所述位置的第一可能性；以及第二氨基酸存在于所述位置的第二可能性。55.根据权利要求53或权利要求54中任一项所述的至少一个非暂时性计算机可读存储介质，其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。56.根据权利要求55所述的至少一个非暂时性计算机可读存储介质，其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括：基于所获得的输出生成隐马尔可夫模型(HMM)；以及将所述HMM与所述多个氨基酸序列之一进行匹配。57.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述机器学习模型包括以下之一：高斯混合模型(GMM)；包含多个集群的聚类模型，所述集群的每一个与一个或多个氨基酸相关联；深度学习模型；卷积神经网络；或者联结时序分类(CTC)拟合神经网络。58.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。59.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。60.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。
61.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出：概率分布，其针对多种氨基酸的每一种，指示所述氨基酸存在于所述位置的概率。62.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值，每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。63.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值，每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。64.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。65.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中将所述数据作为输入提供给所述经训练的机器学习模型还包括：识别所述数据的多个部分，每个部分对应于所述结合相互作用的相应一个；以及将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。66.根据权利要求65所述的至少一个非暂时性计算机可读存储介质，其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。67.根据权利要求65所述的至少一个非暂时性计算机可读存储介质，其中识别所述数据的所述多个部分包括：识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点；以及基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分68.根据权利要求65所述的至少一个非暂时性计算机可读存储介质，其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。69.根据权利要求65所述的至少一个非暂时性计算机可读存储介质，其中识别所述数据的所述多个部分包括：根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值；识别所述数据中的一个或多个点，在这些点处，所述至少一个特性的值相对于所述统计数据的值偏离阈值量；以及基于所识别的一个或多个点识别所述数据的所述多个部分。70.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。71.根据权利要求70所述的至少一个非暂时性计算机可读存储介质，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值，每个波长值指示在结合相互作用期间发射的光的波长。
72.根据权利要求70所述的至少一个非暂时性计算机可读存储介质，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。73.根据权利要求70所述的至少一个非暂时性计算机可读存储介质，其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。74.根据权利要求70所述的至少一个非暂时性计算机可读存储介质，其中所述光发射响应于一系列光脉冲，并且针对所述光脉冲的至少一些的每一个，所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。75.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构，其中：第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子；以及第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。76.根据权利要求70所述的至少一个非暂时性计算机可读存储介质，其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。77.根据权利要求70所述的至少一个非暂时性计算机可读存储介质，其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。78.根据权利要求53所述的至少一个非暂时性计算机可读存储介质，其中所述多个位置包括所述多肽内的至少一个相对位置。79.一种训练用于识别多肽的氨基酸的机器学习模型的方法，所述方法包括：使用至少一个计算机硬件处理器来执行：访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据；以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。80.根据权利要求79所述的方法，其中所述机器学习模型包括混合模型。81.根据权利要求80所述的方法，其中所述混合模型包括高斯混合模型(GMM)。82.根据权利要求79所述的方法，其中所述机器学习模型包括深度学习模型。83.根据权利要求82所述的方法，其中所述深度学习模型包括卷积神经网络。84.根据权利要求82所述的方法，其中所述深度学习模型包括联结时序分类(CTC)拟合神经网络。85.根据权利要求79所述的方法，其中使用所述训练数据训练所述机器学习模型包括将监督训练算法应用于所述训练数据。86.根据权利要求79所述的方法，其中使用所述训练数据训练所述机器学习模型包括将半监督训练算法应用于所述训练数据。87.根据权利要求79所述的方法，其中使用所述训练数据训练所述机器学习模型包括将无监督训练算法应用于所述训练数据。88.根据权利要求79所述的方法，其中所述机器学习模型包括聚类模型，并且训练所述机器学习模型包括识别所述聚类模型的多个集群，所述多个集群的每一个与一个或多个氨
基酸相关联。89.根据权利要求79所述的方法，其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲持续时间值，每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。90.根据权利要求79所述的方法，其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲间持续时间值，每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。91.根据权利要求79所述的方法，其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。92.根据权利要求79所述的方法，还包括训练所述机器学习模型以针对多肽中的多个位置的每一个输出一个或多个相应氨基酸存在于所述位置的一种或多种可能性。93.根据权利要求7...

【专利技术属性】
技术研发人员：迈克尔，
申请(专利权)人：宽腾矽公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人