基于多序列比对的酶序列生成方法、装置、介质和设备制造方法及图纸

技术编号:35946399 阅读:9 留言:0更新日期:2022-12-14 10:37
本发明专利技术公开了一种基于多序列比对的酶序列生成方法、装置、介质和设备。该酶序列生成方法包括:从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;将完整氨基酸序列和若干条相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练,获得氨基酸序列生成模型;利用氨基酸序列生成模型生成目标酶的多条扩展氨基酸序列。通过筛选相似的天然氨基酸序列并进行多序列比对处理,模型可以充分学习到并保留氨基酸序列中的关键位点信息,这样利用模型生成全新的氨基酸序列中具有酶活性的比例更高。的比例更高。的比例更高。

【技术实现步骤摘要】
基于多序列比对的酶序列生成方法、装置、介质和设备


[0001]本专利技术属于生物医药
,具体地讲,涉及一种基于多序列比对的酶序列生成方法、生成装置、计算机可读存储介质、计算机设备。

技术介绍

[0002]酶在生物催化、化工领域有着重要的应用,而由于天然酶存在的数量有限,限制了下游真实场景的工业应用。而众所周知,酶的功能由结构决定,酶的结构则本质上由一级序列决定,因此为了更有效的探索酶功能的空间,需要我们对天然酶的序列进行拓宽。除了传统的实验方法,例如定向进化和理性设计对酶进行改造外,随着机器学习、深度学习等方法的发展,基于计算的方法对酶进行改造也成为了另一类重要的研究方案。代表性的是基于生成式对抗网络的酶序列生成方法,该方法已经证明了可以有效的拓宽有效的酶序列空间,但是该方法在样本较少,即少序列生成时效果仍然不好,如关键位点的丢失,造成生成的氨基酸序列中有酶活性序列的比例较低。

技术实现思路

[0003](一)本专利技术所要解决的技术问题
[0004]如何提高生成的酶的氨基酸序列中有酶活性序列的比例。
[0005](二)本专利技术所采用的技术方案
[0006]一种基于多序列比对的酶序列生成方法,所述酶序列生成方法包括:
[0007]从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;
[0008]将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;
[0009]将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练,获得氨基酸序列生成模型;
[0010]利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。
[0011]优选地,从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干相似氨基酸序列的方法为:
[0012]采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列,其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。
[0013]优选地,将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练的方法包括:
[0014]采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符,将每条对齐氨基酸序列转换为数字编码串;
[0015]将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好
的生成式对抗网络模型进行训练。
[0016]优选地,每个数字编码串中具有21种不同的数字。
[0017]优选地,所述第一阈值为90%,所述第二阈值为70%。
[0018]本申请还公开了一种基于多序列比对的酶序列生成装置,所述酶序列生成装置包括:
[0019]序列筛选单元,用于从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;
[0020]多序列对比单元,用于将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;
[0021]模型训练单元,用于将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练,获得氨基酸序列生成模型;
[0022]序列生成单元,用于利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。
[0023]优选地,所述序列筛选单元还用于:
[0024]采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列,其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。
[0025]优选地,所述模型训练单元包括:
[0026]编码子模块,用于采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符,将每条对齐氨基酸序列转换为数字编码串;
[0027]训练子模块,用于将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。
[0028]本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有基于多序列比对的酶序列生成程序,所述基于多序列比对的酶序列生成程序被处理器执行时实现上述的基于多序列比对的酶序列生成方法。
[0029]本申请还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于多序列比对的酶序列生成程序,所述基于多序列比对的酶序列生成程序被处理器执行时实现上述的基于多序列比对的酶序列生成方法。
[0030](三)有益效果
[0031]本专利技术公开的一种基于多序列比对的酶序列生成方法、生成装置,相对于现有技术,具有如下技术效果:
[0032]通过筛选相似的天然氨基酸序列并进行多序列比对处理,模型可以充分学习到并保留氨基酸序列中的关键位点信息,这样利用模型生成全新的氨基酸序列中具有酶活性的比例更高。
附图说明
[0033]图1为本专利技术的实施例一的基于多序列比对的酶序列生成方法的流程图;
[0034]图2为本专利技术的实施例一的氨基酸序列在多序列对齐处理前后的示意图;
[0035]图3为本专利技术的实施例二的基于多序列比对的酶序列生成装置的示意图;
[0036]图4为本专利技术的实施例四的计算机设备示意图。
具体实施方式
[0037]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0038]在详细描述本申请的各个实施例之前,首先简单描述本申请的专利技术构思:现有技术中利用生成式对抗网络生成酶序列时,由于酶序列样本较少,生成式对抗网络无法有效学习到酶序列中的关键位点信息,这样重新生成的酶序列容易丢失关键位点,导致有酶活性的序列比例较低。本申请提供的基于多序列比对的酶序列生成方法,首先从序列数据中筛选出与目标酶的完整氨基酸序列相似的多条相似氨基酸序列,接着进行多序列对齐,利用对齐之后的氨基酸序列对生成式对抗网络模型,最后利用训练好的模型生成新的氨基酸序列,由于增加了序列样本数量以及通过多序列对齐使得关键位点在位置上保持一样,模型更容易学习到关键位点信息并在学习过程中进行保留,这样利用训练好的模型生成的氨基酸序列也具有关键位点信息,这样可以提高有酶活性序列的比例。
[0039]具体来说,如图1所示,本实施例一提供一种基于多序列比对的酶序列生成方法包括如下步骤:
[0040]步骤S10、从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;
[0041]步骤S20、将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;
[0042]步骤S30、将若干条对齐氨本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多序列比对的酶序列生成方法,其特征在于,所述酶序列生成方法包括:从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练,获得氨基酸序列生成模型;利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。2.根据权利要求1所述的基于多序列比对的酶序列生成方法,其特征在于,从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干相似氨基酸序列的方法为:采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列,其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。3.根据权利要求1所述的基于多序列比对的酶序列生成方法,其特征在于,将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练的方法包括:采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符,将每条对齐氨基酸序列转换为数字编码串;将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。4.根据权利要求3所述的基于多序列比对的酶序列生成方法,其特征在于,每个数字编码串中具有21种不同的数字。5.根据权利要求2所述的基于多序列比对的酶序列生成方法,其特征在于,所述第一阈值为90%,所述第二阈值为70%。6.一种基于多序列比对的酶序列生成装置,其特征在于,所述酶序列生成装置包括:序列筛选单元,用于从序列数据库中筛选出与目标酶的完整氨...

【专利技术属性】
技术研发人员:余函张洋铭罗小舟
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1