蛋白质序列比对方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:37105645 阅读:12 留言:0更新日期:2023-04-01 05:04
本申请提供一种蛋白质序列比对方法、装置、计算机设备以及存储介质,该方法通过蛋白序列编码模型对待查询的目标蛋白序列进行编码,得到目标蛋白编码,进而获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码,以及候选蛋白编码关联的候选蛋白序列,最后,根据目标蛋白序列与候选蛋白序列的比对结果,确定目标蛋白序列的同源蛋白序列。通过将蛋白序列映射至低维度空间中以获取对应的蛋白编码,进而通过蛋白编码序列对蛋白质序列库进行蛋白序列初筛,实现在进行蛋白序列比对之前过滤不相关的蛋白序列,以缩减蛋白序列比对的数据量,有效降低蛋白序列比对的耗时,提高同源蛋白序列搜索的效率。白序列搜索的效率。白序列搜索的效率。

【技术实现步骤摘要】
蛋白质序列比对方法、装置、计算机设备以及存储介质


[0001]本申请涉及人工智能
,具体涉及一种蛋白质序列比对方法、装置、计算机设备以及存储介质。

技术介绍

[0002]蛋白质对人类生物学起着核心作用,随着蛋白质数据的增长,预测蛋白质结构及其功能成为一项重要任务。从大型的蛋白质序列库中进行序列比可以有效地挖掘某个蛋白序列的同源蛋白序列、并辅助该蛋白序列的蛋白质结构和功能的预测,但是蛋白质序列库中蛋白序列的数据量巨大,从蛋白质序列库中搜索召回同源蛋白序列的耗时长、效率低。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种蛋白质序列比对方法、装置、计算机设备以及存储介质,用以提高搜索召回同源蛋白序列的速度,较少耗时。
[0004]第一方面,本申请提供一种蛋白质序列比对方法,该方法包括:
[0005]获取待查询的目标蛋白序列;
[0006]通过蛋白序列编码模型对目标蛋白序列进行编码,得到目标蛋白编码;
[0007]获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码,以及候选蛋白编码关联的候选蛋白序列;
[0008]根据目标蛋白序列与候选蛋白序列的比对结果,确定目标蛋白序列的同源蛋白序列。
[0009]在本申请一些实施例中,蛋白质序列库中包括多个已知蛋白序列以及与已知蛋白序列关联的已知蛋白编码;
[0010]获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码,以及候选蛋白编码关联的候选蛋白序列,包括:
[0011]获取目标蛋白编码与各已知蛋白编码的编码相似度;
[0012]从多个已知蛋白编码中,获取与目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码确定为候选蛋白编码。
[0013]在本申请一些实施例中,获取目标蛋白编码与各已知蛋白编码的编码相似度,包括:
[0014]依次将蛋白质序列库中的已知蛋白编码作为第一蛋白编码,计算目标蛋白编码与第一蛋白编码的点积值;
[0015]将点积值确定为目标蛋白编码与第一蛋白编码的编码相似度。
[0016]在本申请一些实施例中,获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码之前,还包括:
[0017]获取新增的蛋白序列;
[0018]通过蛋白序列编码模型,对新增的蛋白序列进行编码,得到新增的蛋白序列关联
的第二蛋白编码;
[0019]将新增的蛋白序列以及第二蛋白编码保存至蛋白质序列库中。
[0020]在本申请一些实施例中,通过蛋白序列编码模型对目标蛋白序列进行编码,得到目标蛋白编码之前,还包括:
[0021]获取训练样本,训练样本包括样本蛋白序列对以及样本蛋白序列对的相似度标签,样本蛋白序列对包括第一样本蛋白序列以及第二样本蛋白序列;
[0022]基于预先构建的序列编码模型,对样本蛋白序列对进行编码,得到第一样本蛋白序列对应的第一样本蛋白编码以及第二样本蛋白序列对应的第二样本蛋白编码;
[0023]根据第一样本蛋白编码以及第二样本蛋白编码获取预测相似度;
[0024]根据预测相似度与相似度标签,对预先构建的序列编码模型的模型参数进行调整,得到蛋白序列编码模型。
[0025]在本申请一些实施例中,根据目标蛋白序列与候选蛋白序列的比对结果,确定目标蛋白序列的同源蛋白序列,包括:
[0026]获取目标蛋白序列与各候选蛋白序列的相似序列片段;
[0027]基于各候选蛋白序列中的相似序列片段,筛选相似得分大于预设得分阈值的延伸相似片段;
[0028]根据目标蛋白序列与各候选蛋白序列的延伸相似片段,从候选蛋白序列中确定目标蛋白序列的同源蛋白序列。
[0029]在本申请一些实施例中,根据目标蛋白序列与候选蛋白序列的比对结果,确定目标蛋白序列的同源蛋白序列之后,还包括:
[0030]基于同源蛋白序列的蛋白质三维结构,预测目标蛋白序列的三维结构;和/或
[0031]基于同源蛋白序列的蛋白质功能,预测目标蛋白序列的蛋白质功能。
[0032]第二方面,本申请提供一种蛋白质序列比对装置,该装置包括:
[0033]查询序列获取模块,用于获取待查询的目标蛋白序列;
[0034]蛋白序列编码模块,用于通过蛋白序列编码模型对目标蛋白序列进行编码,得到目标蛋白编码;
[0035]蛋白序列召回模块,用于获取预设蛋白质序列库中与目标蛋白编码匹配的候选蛋白编码,以及候选蛋白编码关联的候选蛋白序列;
[0036]蛋白序列比对模块,用于根据目标蛋白序列与候选蛋白序列的比对结果,确定目标蛋白序列的同源蛋白序列。
[0037]第三方面,本申请还提供一种计算机设备,该计算机设备包括:
[0038]一个或多个处理器;
[0039]存储器;以及
[0040]一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的蛋白质序列比对方法。
[0041]第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的蛋白质序列比对方法中的步骤。
[0042]第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机
设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。
[0043]上述蛋白质序列比对方法、装置、计算机设备以及存储介质,在获取待查询的目标蛋白序列后,通过蛋白序列编码模型对所述目标蛋白序列进行编码,得到目标蛋白编码,进而获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码,以及所述候选蛋白编码关联的候选蛋白序列,最后,根据所述目标蛋白序列与所述候选蛋白序列的比对结果,确定所述目标蛋白序列的同源蛋白序列。通过将蛋白序列映射至低维度空间中以获取对应的蛋白编码,进而通过蛋白编码序列对蛋白质序列库进行蛋白序列初筛,实现在进行蛋白序列比对之前过滤不相关的蛋白序列,以缩减蛋白序列比对的数据量,有效降低蛋白序列比对的耗时,提高同源蛋白序列搜索的效率。
附图说明
[0044]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1是本申请实施例中蛋白质序列比对方法的场景示意图;
[0046]图2是本申请实施例中蛋白质序列比对方法的流程示意图;
[0047]图3是本申请实施例中候选蛋白编码获取步骤的流程示意图;
[0048]图4是本申请实施例中蛋白质序列数据库构建步骤的流程示意图;
[0049]图5是本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质序列比对方法,其特征在于,包括:获取待查询的目标蛋白序列;通过蛋白序列编码模型对所述目标蛋白序列进行编码,得到目标蛋白编码;获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码,以及所述候选蛋白编码关联的候选蛋白序列;根据所述目标蛋白序列与所述候选蛋白序列的比对结果,确定所述目标蛋白序列的同源蛋白序列。2.根据权利要求1所述的方法,其特征在于,所述蛋白质序列库中包括多个已知蛋白序列以及与所述已知蛋白序列关联的已知蛋白编码;所述获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码,以及所述候选蛋白编码关联的候选蛋白序列,包括:获取所述目标蛋白编码与各所述已知蛋白编码的编码相似度;从所述多个已知蛋白编码中,获取与所述目标蛋白编码的编码相似度排序在前预设数量的已知蛋白编码确定为候选蛋白编码。3.根据权利要求2所述的方法,其特征在于,所述获取所述目标蛋白编码与各所述已知蛋白编码的编码相似度,包括:依次将蛋白质序列库中的已知蛋白编码作为第一蛋白编码,计算所述目标蛋白编码与所述第一蛋白编码的点积值;将所述点积值确定为所述目标蛋白编码与所述第一蛋白编码的编码相似度。4.根据权利要求1至3所述的方法,其特征在于,所述获取预设蛋白质序列库中与所述目标蛋白编码匹配的候选蛋白编码之前,还包括:获取新增的蛋白序列;通过所述蛋白序列编码模型,对所述新增的蛋白序列进行编码,得到所述新增的蛋白序列关联的第二蛋白编码;将所述新增的蛋白序列以及所述第二蛋白编码保存至所述蛋白质序列库中。5.根据权利要求1所述的方法,其特征在于,所述通过蛋白序列编码模型对所述目标蛋白序列进行编码,得到目标蛋白编码之前,还包括:获取训练样本,所述训练样本包括样本蛋白序列对以及所述样本蛋白序列对的相似度标签,所述样本蛋白序列对包括第一样本蛋白序列以及第二样本蛋白序列;基于预先构建的序列编码模型,对所述样本蛋白序列对进行编码,得到所述第一样本蛋白序列对应的第一样本蛋白编码以及所述第二样本蛋白序列对应的第...

【专利技术属性】
技术研发人员:孙思琦李煜洪亮
申请(专利权)人:上海智峪生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1