当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于对比学习的自监督图神经网络预训练方法技术

技术编号:32259437 阅读:36 留言:0更新日期:2022-02-12 19:19
本发明专利技术涉及一种基于对比学习的自监督图神经网络预训练方法,步骤为:对公开数据库的化合物分子进行预处理,筛选出有机分子;对筛选出的有机分子进行结构分解并提取,将所得的子结构作为标识符,并构建子结构的语料库;将分解后的子结构看作超级节点并构建相应的子图数据,该子图数据与原分子图数据构成正样本对,随机选出若干个子图数据与原分子图数据组成负样本对;构建基于注意力机制的图卷积神经网络、基于多层次的门控循环单元和多层感知机模块,组成自监督学习模型;将所有正负样本对数据输入自监督学习模型进行预训练并保存,便于下游任务的微调。解决对缺乏标注的药物分子的场景时,进行深度学习模型训练所产生的泛化性能不足的问题。性能不足的问题。性能不足的问题。

【技术实现步骤摘要】
一种基于对比学习的自监督图神经网络预训练方法


[0001]本专利技术涉及深度学习领域,更具体地,涉及一种基于对比学习的自监督图神经网络预训练方法。

技术介绍

[0002]药物研究与开发是一个多学科交叉、长周期、高投入的系统工程,面临着研发成本高、周期长、失败率高等问题,因此人们开始借助人工智能的技术来辅助药物研发。近年来,图神经网络作为深度学习中的新兴技术,在图数据上表现了优异的性能。化合物分子是一种天然的图数据,因此为研究深度学习在辅助药物研发开辟了新的路径。
[0003]如今,基于监督学习的图神经网络在过去几年取得了巨大的成功,为了学习到强大的表达能力,它依赖大量人工给出标签的图数据来优化。大规模的带有标签的图数据,尤其是基于药物化学领域的标签数据通常是很难获取的,而且这些数据的标注往往需要生物化学领域的专家知识。在大多数情况下,我们很难获取大量标签数据,因此基于监督学习的图神经网络很难施展其强大的学习能力。如何利用大规模无标注的分子数据进行预训练,使图神经网络学习到潜在的特征和信息是研究的热点和难点。
[0004]现有的技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的自监督图神经网络预训练方法,其特征在于,包括以下步骤:S1:对公开数据库的化合物分子进行预处理,筛选出有机分子;S2:对筛选出的有机分子进行结构分解并提取,将所得的子结构作为标识符,并构建子结构的语料库;S3:将分解后的子结构看作超级节点并构建相应的子图数据,该子图数据与原分子图数据构成正样本对,随机选出若干个子图数据与原分子图数据组成负样本对;S4:构建基于注意力机制的图卷积神经网络、基于多层次的门控循环单元和用于全图特征的变换的多层感知机模块,组成自监督学习模型;S5:将所有正负样本对数据输入自监督学习模型进行预训练并保存。2.根据权利要求1所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,在步骤S1中,对公开数据库zinc化合物分子进行预处理的过程包括:从公开化合物数据库zinc中下载若干化合物,首先对重元素进行去除,随后过滤单原子化合物和惰性气体,得到有效化合物分子。3.根据权利要求2所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,在所述步骤S2中,对化合物分子进行子结构分解并构建训练语料库的过程包括:对有效化合物分子依次进行SMILES到分子结构的转换、子结构分解和子结构反序列化操作;根据上述哈希表的映射关系,将原分子的子结构利用Rdkit进行反序列化,即用子结构的SMILES字符串表示,该SMILES用于子结构语料库的构建并保存在本地文件中。4.根据权利要求3所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,SMILES到分子结构的转换操作通过Python工具库Rdkit转换并获取每个原子对应的原子编号,环结构信息,官能团信息;子结构分解操作通过对环结构信息、官能团信息对应的原子编号,使用哈希表记录,其余的普通原子编号也记录在哈希表中,每一个分子的哈希表的键为子图的新编号,从1开始记录,所对应的值为原分子的环结构所对应的原子编号,官能团对应的原子编号以及普通原子编号。5.根据权利要求4所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,在步骤S3中,根据原分子,读取对应保存子结构的哈希表,并根据哈希表进行子图数据的构建,将子结构看作超级节点,将上述原分子图数据以及子结构图数据作为正样本对,并随机从所有子图数据中抽取10个子图与该原子图构成负样本对。6.根据权利要求5所述的一种基于对比学习的自监督图神经网络预训练方法,其特征在于,子图数据的节点数量为哈希表的最大键值N,并用N
×
N的邻接矩阵表示该子图,子图的连接关系与原分子图中子结构的连接关系相同,0表示无边连接,1表示有边连接;根据原分子的原子数目R,用R
×
R的邻接矩阵表示,连接关系与分子的化学键连接关系相同,0表示无边连接,1表示有边连接;正负样本对的比例为1:10。7....

【专利技术属性】
技术研发人员:官全龙叶贤斌赖兆荣罗伟其汪超男方良达
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1