一种基于FCSS预测分子毒性的图神经网络预训练方法及系统技术方案

技术编号:37988061 阅读:12 留言:0更新日期:2023-06-30 10:02
本发明专利技术公开了一种基于FCSS预测分子毒性的图神经网络预训练方法,包括:生成分子图,从而将用于与训练的分子通过增加节点与边的特征的方式转换为分子图;基于FCSS确定一个或多个电子中心,并将电子中心作为电子中心描述符;其中电子中心以杂原子或以双键/三键连接的碳原子为中心原子;将一个或多个电子中心进行匹配和编码后获得拓展后的原子序数特征,基于拓展后的原子序数特征将特征从原子序数表征更新为电子中心表征;基于电子中心表征进行预训练,在预训练中多次随机掩蔽用于预训练的分子对应的部分或全部拓展后的原子序数特征并进行预测,获得预测分子毒性的基础图神经网络预训练模型,待预测特征为原子序数或电子中心。还公开对应系统及应用。心。还公开对应系统及应用。心。还公开对应系统及应用。

【技术实现步骤摘要】
一种基于FCSS预测分子毒性的图神经网络预训练方法及系统


[0001]本专利技术属于生物基因
,尤其涉及一种基于FCSS预测分子毒性的图神经网络预训练方法及系统。

技术介绍

[0002]分子毒性的研究是药物研发中非常重要的部分,通过实验检测需要耗费大量资源,如何准确的预测分子毒性至关重要。由于分子可以自然的表示为图(原子表示为节点,键表示为边),通过图神经网络预测分子的毒性已经得到广泛的应用。然而该领域下有标签数据通常不足,图神经网络训练后泛化能力一般较差,因此提出通过预训练

微调的方法提高模型的泛化能力。常用的方法是先定义一个预训练任务,然后在大量无标签数据上对图神经网络进行预训练,最后在有标签数据上进行微调,最终得到的模型用于预测分子毒性。
[0003]目前常见的节点级图神经网络预训练方法将预训练任务定义为掩蔽原子序数并进行预测。然而由于原子的种类太少,这类预训练任务存在严重的模糊性问题,两种相同类型的原子在不同化学环境中可能会有不同的语义信息,但是在上述预训练任务中并没有被区分,这样经过预训练模型学到的知识迁移到下游任务时模型将更难捕获同类型原子的不同语义信息。在最新的研究中,提出用局部子图中的统计信息作为原子或键的上下文信息,在预训练时预测这些上下文信息而不是原子序数。这种基于统计信息的方法虽然在一定程度上缓解了之前预训练任务中的模糊性问题,但是由于统计信息并不能代表化学语义,所以在预训练中预测这种上下文信息可能会将不必要和不正确的知识迁移到下游任务模型中。
[0004]因此,上述的现有技术确实有待提出更佳解决方案的必要性。

技术实现思路

[0005]本专利技术的目的是提供一种基于FCSS预测分子毒性的图神经网络预训练方法及系统,基于FCSS预测分子毒性的图神经网络预训练方法及系统设计了一个新的节点级预训练任务,首先提取FCSS中的电子中心作为领域知识,在预训练使用的无标签数据上通过RDKit匹配这些电子中心,并将这一领域知识编码到中心原子中,与原子类型相结合作为预训练时待预测的目标;这意味着一些具有相同原子序数的原子将根据其化学环境进一步划分为不同的类别;通过将领域知识应用到预训练任务中,实现了当原子在局部子图中表现出特殊的化学语义时,预测目标能反映原子的上下文信息,而当原子不具备上述特征时,则仅预测其原子序数,从而更好的解决了模糊性问题,将有用的知识迁移到下游任务,因此有利于提高分子毒性预测的准确率。该方法和系统克服了传统方法的模糊性缺点,通过将FCSS中的领域知识加入到预训练任务中,使模型能够更准确的预测分子毒性,缩短药物研发周期,具备较高的实用价值。
[0006]本专利技术一方面提供了一种基于FCSS预测分子毒性的图神经网络预训练方法,包括:
[0007]S1,生成分子图,从而将用于与训练的分子通过增加节点与边的特征的方式转换为分子图;
[0008]S2,基于FCSS确定一个或多个电子中心,并将所述电子中心作为电子中心描述符;其中所述电子中心以杂原子或以双键/三键连接的碳原子为中心原子;
[0009]S3,将所述一个或多个电子中心进行匹配和编码后获得拓展后的原子序数特征,基于拓展后的原子序数特征将特征从原子序数表征更新为电子中心表征;
[0010]S4,基于电子中心表征进行预训练,在预训练中多次随机掩蔽用于预训练的分子对应的部分或全部拓展后的原子序数特征并进行预测,获得预测分子毒性的基础图神经网络预训练模型,待预测特征为原子序数或电子中心。
[0011]优选的,所述方法还包括:
[0012]S5,基于与下游任务相关的训练集对所述基础图神经网络预训练模型进行微调后获得图神经网络预训练模型,所述图神经网络预训练模型用于预测分子毒性。
[0013]优选的,所述S1包括:
[0014]S11,将分子中的原子作为节点,键作为边,构建分子图;
[0015]S12,将原子属性使用one

hot特征向量编码作为所述节点的属性,将键的属性使用one

hot特征向量编码作为所述边的属性。
[0016]优选的,所述原子属性包括原子序数和/或手性信息;所述键的属性包括键的类型。
[0017]优选的,所述S3包括:
[0018]S31,对于每个用于预训练的每个分子,匹配所述每个分子的一个或多个中心原子,获取所述一个或多个中心原子周围的节点和边的属性,获得第一属性集合,基于所述第一属性集合判断所述中心原子是否为所述电子中心的中心原子;
[0019]S32,将电子中心作为第一原子序数,将原始用于编码原子序数的one

hot特征向量编码增加第一维度以用于编码电子中心,将所述第一原子序数以及编码电子中心结合得到拓展后的原子序数特征,其中第一维度的维度数量与电子中心的数量相同;
[0020]S33,对于与所述一个或多个电子中心的一个或多个中心原子,更新拓展后的原子序数特征,将特征从原子序数表征更新为电子中心表征。
[0021]优选的,所述S4包括:
[0022]S41,对用于预训练的分子,在预训练中多次随机掩蔽用于预训练的分子对应的部分或全部拓展后的原子序数特征;
[0023]S42,将所述分子图输入图神经网络初级模型;
[0024]S43,将掩蔽的原子序数特征作为预测目标,基于分子图构建多分类任务,对图神经网络初级模型进行预训练。
[0025]本专利技术的第二方面提供一种基于FCSS预测分子毒性的图神经网络预训练系统,包括:
[0026]分子图生成模块(101),用于生成分子图,从而将用于与训练的分子通过增加节点与边的特征的方式转换为分子图;
[0027]电子中心确定模块(102),用于基于FCSS确定一个或多个电子中心,并将所述电子中心作为电子中心描述符;其中所述电子中心以杂原子或以双键/三键连接的碳原子为中
心原子;
[0028]匹配编码模块(103),用于将所述一个或多个电子中心进行匹配和编码后获得拓展后的原子序数特征,基于拓展后的原子序数特征将特征从原子序数表征更新为电子中心表征;
[0029]预训练模块(104),用于基于电子中心表征进行预训练,在预训练中多次随机掩蔽用于预训练的分子对应的部分或全部拓展后的原子序数特征并进行预测,获得预测分子毒性的基础图神经网络预训练模型,待预测特征为原子序数或电子中心。
[0030]作为优选的实施方式,还包括:
[0031]调整模块(105),用于基于与下游任务相关的训练集对所述基础图神经网络预训练模型进行微调后获得图神经网络预训练模型,所述图神经网络预训练模型用于预测分子毒性。
[0032]本专利技术的第三方面在于提供一种基于FCSS预测分子毒性的图神经网络预训练系统在预测分子毒性的图神经网络模型建立中的应用。
[0033]本专利技术的第三方面在于提供一种基于FCSS预测分子毒性的图神经网络预训练系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于FCSS预测分子毒性的图神经网络预训练方法,其特征在于,包括:S1,生成分子图,从而将用于与训练的分子通过增加节点与边的特征的方式转换为分子图;S2,基于FCSS确定一个或多个电子中心,并将所述电子中心作为电子中心描述符;其中所述电子中心以杂原子或以双键/三键连接的碳原子为中心原子;S3,将所述一个或多个电子中心进行匹配和编码后获得拓展后的原子序数特征,基于拓展后的原子序数特征将特征从原子序数表征更新为电子中心表征;S4,基于电子中心表征进行预训练,在预训练中多次随机掩蔽用于预训练的分子对应的部分或全部拓展后的原子序数特征并进行预测,获得预测分子毒性的基础图神经网络预训练模型,待预测特征为原子序数或电子中心。2.根据权利要求1所述的一种基于FCSS预测分子毒性的图神经网络预训练方法,其特征在于,所述方法还包括:S5,基于与下游任务相关的训练集对所述基础图神经网络预训练模型进行微调后获得图神经网络预训练模型,所述图神经网络预训练模型用于预测分子毒性。3.根据权利要求1所述的一种基于FCSS预测分子毒性的图神经网络预训练方法,其特征在于,所述S1包括:S11,将分子中的原子作为节点,键作为边,构建分子图;S12,将原子属性使用one

hot特征向量编码作为所述节点的属性,将键的属性使用one

hot特征向量编码作为所述边的属性。4.根据权利要求3所述的一种基于FCSS预测分子毒性的图神经网络预训练方法,其特征在于,所述原子属性包括原子序数和/或手性信息;所述键的属性包括键的类型。5.根据权利要求4所述的一种基于FCSS预测分子毒性的图神经网络预训练方法,其特征在于,所述S3包括:S31,对于每个用于预训练的每个分子,匹配所述每个分子的一个或多个中心原子,获取所述一个或多个中心原子周围的节点和边的属性,获得第一属性集合,基于所述第一属性集合判断所述中心原子是否为所述电子中心的中心原子;S32,将电子中心作为第一原子序数,将原始用于编码原子序数的one

hot特征向量编码增加第一维度以用于编码电子中心,将所述第一原子序数以及编码电子中心结...

【专利技术属性】
技术研发人员:李欣泽柳俊宏刘勇王鹏磊
申请(专利权)人:星希尔生物科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1