System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 针对蛋白质表示学习的自监督预训练方法技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

针对蛋白质表示学习的自监督预训练方法技术

技术编号:40442530 阅读:5 留言:0更新日期:2024-02-22 23:04
本发明专利技术属于深度学习与药物设计领域,涉及一种针对蛋白质表示学习的自监督预训练方法。本发明专利技术基于自监督预训练技术对蛋白质的几何特征和化学特征表示学习,包括:步骤S1,对来自蛋白质数据库的无标注蛋白质数据进行预处理,使用点云建模蛋白质表面,形成无标注蛋白质表面点云数据集;步骤S2:基于掩码重建代理任务,使用S1得到的数据进行自监督预训练,在无标注蛋白质表面点云数据集上预训练网络;步骤S3:使用预训练网络的编码器作为初始化,在下游任务上微调深度网络。本发明专利技术方法着重针对于蛋白质的三维结构表示学习,能够使用大量无标注的蛋白质数据提升网络在下游任务上的表现,从而减少对蛋白质有标注数据的需求,降低标注成本。

【技术实现步骤摘要】

本专利技术属于生物信息学,具体涉及一种针对蛋白质表示学习的自监督预训练方法


技术介绍

1、蛋白质是生命活动的主要承担者,了解蛋白质对于探究发病机理、设计药物具有至关重要的意义。然而,当前人类对于蛋白质的认识还是非常有限的。近年来,深度学习的发展推进了蛋白质表示学习的发展,使得更加深入了解蛋白质成为可能。蛋白质表示学习旨在使用深度网络为蛋白质提取表示,基于该表示,蛋白质的一些性质可以被准确地预测。然而,这些深度网络的训练往往需要蛋白质及其性质作为训练样本,而蛋白质性质往往需要通过湿实验进行获取,具有很高的人力与物力成本。因此,如何缓解网络训练对于训练样本的需求已经成为重要的研究命题。

2、中国专利申请号cn202211688943.9《一种基于蛋白质预训练场景下的数据选择方法和装置》提示了获取蛋白质数据,并将每条蛋白质数据表征为三维图结构;利用基于图神经网络的图编码模型对每个三维图结构进行编码得到蛋白质的隐向量;不加入人的干预,端到端地对蛋白质数据进行筛选,通过数据本身的特征指导筛选;利用与下游任务数据有相关性密度的数据进行下游任务模型的训练。

3、中国专利申请号cn202111423752.5《蛋白质表示模型预训练、蛋白质相互作用预测方法和装置》提示了获取蛋白质的功能信息和结构信息,将所述功能信息替换为一个掩码,并根据所述结构信息和所述蛋白质,对所述蛋白质表示模型进行预训练;和/或者将所述功能信息以及所述结构信息分别替换为一个掩码字符,对所述蛋白质表示模型进行预训练;和/或者将所述结构信息替换为一个掩码字符,对所述蛋白质表示模型进行预训练。

4、中国专利申请号cn202011498422.8《一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置》提示了采用预训练策略,对来自蛋白质数据库的无标签蛋白质序列进行分词、遮盖处理,进行掩盖语言模型和句子连续性预测两个任务的预训练,捕捉词语级别和句子级别的表示,帮助模型学习蛋白质序列通用的结构化特征;使用带标签的数据集对模型进行微调,生成预测模型;根据识别和预测任务,采用预测模型进行识别,输出预测结果。

5、以及,中国专利申请号cn202210122014.5《基于预训练语言模型的蛋白质构象感知表示学习方法》提示了基于预训练语言模型构建表示学习模块,用于将每类提示符的嵌入表示融合到蛋白质的嵌入表示,以得到提示符标识下的蛋白质嵌入表示;构建任务模块,用于针对每类蛋白质构象对应的任务,基于提示符标识下的蛋白质嵌入表示进行任务预测;基于任务预测结果和标签构建每类任务的损失函数,结合所有类任务的损失函数和不同数据集,更新表示学习模块和任务模块的模型参数;模型参数更新结束后,提取表示学习模块作为蛋白质表示模块。

6、自监督预训练技术正是一种可以缓解网络对有标注数据依赖的技术,在计算机视觉、自然语言处理等领域具有广泛的应用。自监督预训练的核心是设计合适的代理任务。根据代理任务,自监督预训练可以大致分为对比式与生成式两类。对比式的基本思想是通过数据增强来构建正负样本,通过判别正负样本进行预训练;而生成式的基本思想是随机掩码数据的一部分,并基于未掩码的部分来预测被掩码的部分来实现预训练。

7、当前,针对蛋白质表示学习的自监督预训练方法比较少,而且大多数方法是基于蛋白质序列实现的。然而,蛋白质的功能是由其序列间接决定的,而由其结构直接决定的,因此,针对蛋白质三维结构表示学习的自监督预训练技术具有巨大的潜在价值。


技术实现思路

1、本专利技术的目的是提供一种针对蛋白质表示学习的自监督预训练方法,基于蛋白质三维结构表示学习实现预训练深度网络。

2、为达到上述目的,本专利技术提供了一种针对蛋白质表示学习的自监督预训练方法,其中,包括以下步骤:

3、步骤s1:对来自蛋白质数据库的无标注蛋白质数据进行预处理,形成无标注蛋白质表面点云数据集;

4、步骤s2:基于掩码重建代理任务在无标注蛋白质表面点云数据集上预训练网络;

5、步骤s3:使用预训练网络的编码器作为初始化,在下游任务上微调深度网络。

6、可以从蛋白质数据银行(protein data bank,https://www.rcsb.org/)下载公开的蛋白质数据,这些数据通常以“.pdb”的形式存储,不包含标注信息。

7、在上述方案的基础上,所述步骤s1的无标注蛋白质数据预处理包括以下步骤:

8、步骤s11:将无标注蛋白质数据拆解为多条蛋白质链;

9、步骤s12:基于蛋白质链原子的范德华半径和高斯平滑函数构造蛋白质的近似表面;

10、步骤s13:基于梯度下降得到蛋白质的的表面近似;

11、步骤s14:进行内部点清除与表面均匀采样得到蛋白质表面的点云坐标;

12、步骤s15:基于梯度下降得到包括法线和主曲率、平均曲率的几何特征;

13、步骤s16:通过计算得到包括原子空间邻域内原子分布的化学特征;

14、步骤s17:将几何特征和化学特征作为点云的一部分与点云坐标一同存储。

15、本专利技术方法着重针对于蛋白质表示学习,首先下载大量未经处理的开源蛋白质数据,并将其处理为点云的形式,然后将点云切成若干重叠的点云小块,并掩码一部分点云块,之后将未重叠的点云块输入到深度编码器中提取特征,提取到的特征被输入到解码器,由解码器预测被掩码的点云块的空间位置坐标,在多次重复上述掩码重建过程后,深度编码器得到了一定的训练,其网络权重将被用作下游任务的网络初始化权重,该初始化可以显著提升网络在下游任务上的表现。本专利技术能够使用大量无标注的蛋白质数据提升网络在下游任务上的表现,从而减少对蛋白质有标注数据的需求,降低标注成本。

16、对于由多条链构成的蛋白质,将其拆解为多条蛋白质链以实现数据扩充。将几何特征和化学特征作为点云的一部分与点云坐标一同存储,在蛋白质表示学习的过程中与点云坐标一同输入网络,增强网络的表示能力。相较于其他数据形式或者使用软件进行建模,使用点云建模蛋白质表面具有高效性,使得该预处理过程能够高速进行。该建模过程中,预处理方法还提取了蛋白质表面的几何特征和化学特征可以用于下游任务中的蛋白质表示学习。由于通过代理任务预训练得到的深度网络可以学习到数据中的特征分布与依赖,在下游任务上微调得到的深度网络会比从头训练得到的深度网络具有更好的性能,因此,对于有标注数据的需求会有所减小,从而降低获取有标注数据的成本。

17、在上述方案的基础上,所述步骤s2的掩码重建代理任务包括以下步骤:

18、步骤s21:将每个输入的蛋白质表面点云数据划分为多个相互重叠的点云块,将一部分点云块掩码,剩余的未掩码点云块输入深度网络;

19、步骤s22:通过编码器提取未掩码点云块的几何特征和化学特征;

20、步骤s23:将提取的几何特征和化学特征输入解码器;

21、步骤s24:解码器基于输入的本文档来自技高网...

【技术保护点】

1.一种针对蛋白质表示学习的自监督预训练方法,其特征在于,基于自监督预训练技术对蛋白质的几何特征和化学特征表示学习,包括以下步骤:

2.根据权利要求1所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述步骤S1的无标注蛋白质数据预处理包括以下步骤:

3.根据权利要求1所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述步骤S2的掩码重建代理任务包括以下步骤:

4.根据权利要求3所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述掩码重建代理任务的重建损失函数如下所示:

5.根据权利要求1和3所述的针对蛋白质表示学习的自监督预训练方法,其特征在于:所述步骤S3中,使用预训练权重作为下游任务的初始化,每个下游任务采用特定的深度网络,所述的深度网络由编码器与抽头网络构成。

6.根据权利要求5所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述步骤S3中,编码器的权重采用预训练的权重作为初始化,而抽头网络的权重采用随机初始化;在下游任务训练即微调时,使用下游任务的数据对下游任务的编码器与抽头网络进行训练。

...

【技术特征摘要】

1.一种针对蛋白质表示学习的自监督预训练方法,其特征在于,基于自监督预训练技术对蛋白质的几何特征和化学特征表示学习,包括以下步骤:

2.根据权利要求1所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述步骤s1的无标注蛋白质数据预处理包括以下步骤:

3.根据权利要求1所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述步骤s2的掩码重建代理任务包括以下步骤:

4.根据权利要求3所述的针对蛋白质表示学习的自监督预训练方法,其特征在于,所述掩码重建代...

【专利技术属性】
技术研发人员:王满宁袁明志宋志坚
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1