当前位置: 首页 > 专利查询>西湖大学专利>正文

一种基于向量相似性检索的蛋白质功能预测方法技术

技术编号:37517065 阅读:10 留言:0更新日期:2023-05-12 15:38
本发明专利技术提供一种基于向量相似性检索的蛋白质功能预测方法,涉及深度学习和蛋白质功能预测技术领域。该方法首先获取蛋白质数据集并进行预处理后按比例划分为训练集、验证集和测试集;然后构建蛋白质功能预测网络模型,训练蛋白质的向量表征;并进行蛋白质功能预测网络模型的预训练;再通过向量相似性检索对测试集中的蛋白质进行功能预测;最后,针对下游蛋白质功能分类任务对蛋白质功能预测网络模型进行模型迁移,进而实现对不同类别的蛋白质功能分类。该方法提出的蛋白质功能预测网络模型可以有效的将相同功能蛋白质的语义表示在向量空间聚类在一起,使用向量相似性检索来做蛋白质功能分类任务,解决了Softmax函数做类别分类的弊端。类的弊端。类的弊端。

【技术实现步骤摘要】
一种基于向量相似性检索的蛋白质功能预测方法


[0001]本专利技术涉及深度学习和蛋白质功能
,尤其涉及一种基于向量相似性检索的蛋白质功能预测方法。

技术介绍

[0002]蛋白质是组成生物体的基本物质和生命的载体,一切生命活动都是通过蛋白质的功能来行使的。蛋白质由氨基酸序列组成,通过折叠形成复杂的三维构象以行使其生物学功能,了解蛋白质“序列

结构

功能”之间的关系是蛋白质生物学的核心问题,对于了解疾病机制和设计用于医疗与生物工程应用的蛋白和药物至关重要。理论和实践证明蛋白质的结构和功能信息都隐藏在蛋白质的氨基酸序列中,因此,直接通过蛋白质的氨基酸序列去预测蛋白质功能成为了可能。但是“序列

功能”关系的复杂性持续挑战这我们的计算建模能力,截止到2022年3月,UniProt序列数据库2.8亿条蛋白质序列,但是其中只有56万(约0.2%)的蛋白质序列是由专家管理员手工审核和注释具有明确的功能。公共数据库中的蛋白质序列呈爆发式增长,然而,由于生物学实验成本高、耗时长,蛋白质功能分析的进展相对缓慢,因此,生物信息学领域急需高通量、高质量的蛋白质功能注释工具。
[0003]由于蛋白质功能是其氨基酸序列的直接结果,因此25年时间以来,人们一直利用初级序列之间的相似性来系统地推断其功能,例如BLAST工具等,虽然通常有用,但简单的相似性测量往往不足以确定蛋白质的功能,高度不同的蛋白质序列有时也具有相似的功能,甚至单个氨基酸的变化都可以完全消除蛋白质的功能。之后,更复杂的统计模型Profile隐马尔可夫模型(Profile Hidden Markov Model,简称pHMM)被开发来解决这些挑战,代表性的工具有:HAMMER,HHblits等,虽然这些方法非常有益,但往往缺乏通用性,每个pHMM模型通常是在给定蛋白质家族(protein family)手工排列的序列上进行训练,而没有利用其他蛋白质家族或者其他注释的信息,这导致训练后的Profile隐马尔可夫模型具有非常高的特异性,从而没有能力检测功能相关但是序列不同的蛋白质,并且这些方法需要大量计算才能大规模运行,这对于注释蛋白质数据库或者宏基因组来说是一个巨大的挑战。
[0004]得益于目前深度学习的快速发展,特别是以数据驱动的语言模型在自然语言处理领域的突破性的进展,近年来,这些模型和方法已被应用到蛋白质信息学领域,有潜力为蛋白质功能注释的挑战提供通用的解决方案,并加速我们理解和利用宏基因组数据的能力。其中比较具有代表性的模型有使用SCOP数据集进行1195个折叠类型(fold classes)分类的DeepSF、使用COG数据集进行2892个家族类型(families)分类的DeepFam、使用SwissProt数据集进行数百类别分类的SECLAF等深度学习模型,但是这些深度学习的研究要么局限于数据集类别数量和规模不实用或不具有代表性,要么无法与广泛使用的现有传统工具方法进行比较。并且这些模型方法取得一定性能提升的同时,一些问题也随之而来。例如:1)由于实验解析蛋白功能的繁琐和复杂,在做蛋白质功能预测的实际应用场景中具有功能注释的蛋白序列特别少,有的功能类别的数据条目只有几十个,甚至几个。并且不同功能类别的
样本序列数据分布非常不均衡,这些问题都会导致现有模型方法难以提取到不同类别蛋白质的具有泛化性的表征,很容易过拟合并且鲁棒性、泛化能力很差。如何使模型更加高效的利用现有数据来产生可靠的结果是目前亟待解决的问题。2)各种高精度的生物实验使得人们对蛋白质功能的认知水平不断提升,蛋白质的功能类别实际上每年都会发生增加、删除或者合并。进而,之前的模型如何适应不断变动的数据,更加的具有健壮性也是目前做蛋白质功能分类面临的核心问题。3)蛋白质功能预测任务的目标是对蛋白质序列数据进行功能注释,我们对于模型的更高需求是让其具有发现新的功能类别的能力。现有的方法一般是在模型输出层后加上Softmax函数做类别分类,这种方法实际上限制了模型更多的探索和发现能力;基于向量相似性检索的模型对于如何解决上述问题以及解决效果探索不够深入,模型效果和表现不足人意,并且现有的模型架构不够灵活,无法根据下游任务自身特点进行模型结构调整,缺乏可拓展性和自适应性。

技术实现思路

[0005]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于向量相似性检索的蛋白质功能预测方法,实现对蛋白质功能的预测。
[0006]为解决上述技术问题,本专利技术所采取的技术方案是:一种基于向量相似性检索的蛋白质功能预测方法,包括以下步骤:
[0007]步骤1:获取蛋白质数据集并进行预处理后按比例划分为训练集、验证集和测试集;
[0008]步骤2:构建蛋白质功能预测网络模型,训练蛋白质的向量表征;
[0009]所述蛋白质功能预测网络模型基于预训练好的包括33层Transformer块的Transformer架构,在每层Transformer块之间都插入应用适配层;
[0010]所述蛋白质功能预测网络模型的输入是蛋白质的氨基酸序列X∈R
l
×
a
,其中,X是输入蛋白质的氨基酸序列的独热编码表示,l是蛋白质序列的长度,a是模型训练词表的维度;所述模型训练词表包括氨基酸类型和特殊字符'<cls>','<pad>','<eos>','<unk>','.','

','<null_1>','<mask>';经过嵌入层得到氨基酸序列表示为E∈R
l
×
d
,其中,d是每个氨基酸特征向量的维度,最后经过33层Transformer块得到氨基酸序列的向量表征O∈R
l
×
d
,对得到的向量O在氨基酸序列维度l上求均值,最后输出维度为d的氨基酸序列的向量表征;
[0011]步骤3:通过对比学习方法进行蛋白质功能预测网络模型的预训练;
[0012]所述蛋白质功能预测网络模型输入的训练样本数据分为锚示例、正示例、负示例三条蛋白质的氨基酸序列,模型训练选用的损失函数是三元组损失;
[0013]步骤4:通过向量相似性检索对测试集中的蛋白质进行功能预测;
[0014]测试集中的每一条蛋白质序列通过训练后的蛋白质功能预测网络模型输出向量表示,将每一条蛋白质序列与训练集中的所有蛋白质序列求向量相似度,使用向量相似度最高的序列标签对该条蛋白质序列进行功能标注;所述向量相似度和训练时候保持一致使用欧式距离进行计算;
[0015]步骤5:针对下游蛋白质功能分类任务对蛋白质功能预测网络模型进行模型迁移,进而实现对不同类别的蛋白质功能分类任务;
[0016]针对下游蛋白质功能分类任务做模型迁移时,只在训练过程中对蛋白质功能预测网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于向量相似性检索的蛋白质功能预测方法,其特征在于:包括以下步骤:步骤1:获取蛋白质数据集并进行预处理后按比例划分为训练集、验证集和测试集;步骤2:构建蛋白质功能预测网络模型,训练蛋白质的向量表征;所述蛋白质功能预测网络模型基于预训练好的包括33层Transformer块的Transformer架构,在每层Transformer块之间都插入应用适配层;步骤3:通过对比学习方法进行蛋白质功能预测网络模型的预训练;步骤4:通过向量相似性检索对测试集中的蛋白质进行功能预测;步骤5:针对下游蛋白质功能分类任务对蛋白质功能预测网络模型进行模型迁移,进而实现对不同类别的蛋白质功能分类。2.根据权利要求1所述的一种基于向量相似性检索的蛋白质功能预测方法,其特征在于:步骤2所述蛋白质功能预测网络模型的输入是蛋白质的氨基酸序列X∈R
l
×
a
,其中,X是输入蛋白质的氨基酸序列的独热编码表示,l是蛋白质序列的长度,a是模型训练词表的维度;经过嵌入层得到氨基酸序列表示为E∈R
l
×
d
,其中,d是每个氨基酸特征向量的维度,最后经过33层Transformer块得到氨基酸序列的向量表征O∈R
l
×
d
,对得到的向量O在氨基酸序列维度l上求均值,最后输出维度为d的氨基酸序列的向量表征。3.根据权利要求2所述的一种基于向量相似性检索的蛋...

【专利技术属性】
技术研发人员:王辉郭贵冰原发杰
申请(专利权)人:西湖大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1