一种化学结构感知的分子图像表示学习方法技术

技术编号:37994407 阅读:7 留言:0更新日期:2023-06-30 10:08
本发明专利技术公开了一种化学结构感知的分子图像表示学习方法,其特征在于,包括预训练阶段和微调阶段,所述预训练阶段包括以下步骤:将分子的SMILES数据转化为分子图像和分子拓扑图两种模态;在每个分子图像和每个分子拓扑图上使用数据增强得到增强后的视角;使用图像编码器和拓扑图编码器分别提取分子图像中的视觉特征和分子拓扑图中的拓扑特征;使用模态内对比学习和模态间对比学习来优化图像编码器和拓扑图编码器;所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。解决了图像中化学语义知识无法被有效感知的问题以及拓扑图中特征表示不足的问题。中特征表示不足的问题。中特征表示不足的问题。

【技术实现步骤摘要】
一种化学结构感知的分子图像表示学习方法


[0001]本专利技术涉及分子表示学习领域,具体涉及一种化学结构感知的分子图像表示学习方法。

技术介绍

[0002]分子表征学习被广泛认为是计算机辅助药物设计中最重要的任务之一,也是高效药物发现的先决条件。随着深度学习在各个领域的显著成功,深度学习也显示出在分子表示学习方面优于传统方法的强大潜力。与物理化学描述符、分子指纹或根据专家设计的定量构效关系(QSAR)等传统方法相比,深度学习不需要任何昂贵且耗时的手动特征提取的过程,并可以从大量分子中提取有意义的特征表示。
[0003]目前,分子表示学习领域存在以下不足:传统的基于人工观察的分子性质评估是非常繁琐、费时和主观的;基于拓扑图的分子表示学习方法有两个主要的限制,其一,浅层的图神经网络难以捕捉化合物的全局结构,其二,深层的神经网络容易出现过度平滑问题;基于分子图像的表示学习方法是一种新颖的表示学习方法,它将化学信息隐式地编码在图像信息中,模型对图像结构的感知是基于没有任何语义信息的像素,导致模型无法理解图像中的化学知识,使得很多潜在的化学信息没有被充分挖掘。

技术实现思路

[0004]本专利技术的目的在于:针对目前分子表示学习领域存在的不足,提供了一种化学结构感知的分子图像表示学习方法,提出了一种跨模态的基于图像和拓扑图的对比学习框架,通过在图像和拓扑图之间的对比学习,将拓扑图中的化学知识转移到图像中,迫使视觉信息与化学语义知识相对应,使得模型具备感知分子图像中化学结构的能力。同时,鉴于图像比拓扑图更容易提取全局结构特征的优势,分子图像能够很好的引导模型去理解拓扑图中的全局结构信息,很好地解决了拓扑图中的特征表示不足问题。
[0005]本专利技术的技术方案如下:
[0006]一种化学结构感知的分子图像表示学习方法,包括预训练阶段和微调阶段,所述预训练阶段包括数据获取、预处理、分子图像和拓扑图提取、分子图像和分子拓扑图数据增强、视觉特征和拓扑特征提取、模态内和模态间对比学习;
[0007]所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。
[0008]进一步的,所述数据获取包括从公开的小分子数据库中收集SMILES数据。
[0009]进一步的,所述预处理包括将获取的数据进行筛选,去除重复的SMILES数据以及无法处理的数据。
[0010]进一步的,所述分子图像和拓扑图提取包括以下步骤:
[0011]对于分子图像,将SMILES转化为224
×
224
×
3的分子图像;
[0012]对于分子拓扑图,将SMILES转化为拓扑图结构,并初始化拓扑图中原子和键的特
征,特征包括原子类型、手性类型、分子的度、电荷数、是否有环和键的类型。
[0013]进一步的,所述分子图像和分子拓扑图数据增强包括以下步骤:
[0014]对于分子图像,使用颜色抖动、随机水平翻转、随机灰度、随机旋转和高斯模糊对图像增强,得到增强分子图像;
[0015]对于分子拓扑图,使用删除原子、置换键以及遮掩原子对分子拓扑图增强,得到增强分分子拓扑图。
[0016]进一步的,所述视觉特征和拓扑特征提取包括使用图像编码器和拓扑编码器分别提取分子图像和拓扑图的视觉特征和拓扑特征;提取的特征分别是原始视觉特征、增强视觉特征、原始拓扑特征和增强拓扑特征。
[0017]进一步的,所述模态内和模态间对比学习包括以下步骤:
[0018]在模态内对比学习中,使用NT

Xent损失函数在原始视觉特征和增强视觉特征对,及原始拓扑特征和增强拓扑特征对上计算特征的差异性损失;
[0019]在模态间对比学习中,使用NT

Xent损失函数在原始视觉特征和增强拓扑特征对上计算跨模态之间的特征差异损失;
[0020]通过在特征之间的不断对比学习,预训练分子图像编码器和分子拓扑图编码器。
[0021]进一步的,所述下游任务预测包括在预训练完成后,分别在分子图像编码器和分子拓扑图编码器之后加入多层感知机,完成下游任务的预测。
[0022]与现有的技术相比本专利技术的有益效果是:
[0023]1、一种化学结构感知的分子图像表示学习方法,通过在图像和拓扑图之间的对比学习,将拓扑图中的化学知识转移到图像中,迫使视觉信息与化学语义知识相对应,使得模型具备感知分子图像中化学结构的能力;
[0024]2、一种化学结构感知的分子图像表示学习方法,鉴于图像比拓扑图更容易提取全局结构特征的优势,分子图像能够很好的引导模型去理解拓扑图中的全局结构信息,很好地解决了拓扑图中的特征表示不足问题;
[0025]3、一种化学结构感知的分子图像表示学习方法,引入了模态内的对比方法,在分子图像、分子拓扑图和对应的增强视角之间进行对比学习。
附图说明
[0026]图1为一种化学结构感知的分子图像表示学习方法的预训练流程图。
[0027]图2为一种化学结构感知的分子图像表示学习方法的微调流程图。
[0028]图3为一种化学结构感知的分子图像表示学习方法的对比拓扑图

图像预训练架构图。
具体实施方式
[0029]需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的
要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0030]下面结合实施例对本专利技术的特征和性能作进一步的详细描述。
[0031]请参阅图1

3,一种化学结构感知的分子图像表示学习方法,
[0032]一种化学结构感知的分子图像表示学习方法,包括预训练阶段和微调阶段,所述预训练阶段包括数据获取、预处理、分子图像和拓扑图提取、分子图像和分子拓扑图数据增强、视觉特征和拓扑特征提取、模态内和模态间对比学习;
[0033]所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。
[0034]所述数据获取包括从公开的小分子数据库中收集SMILES数据。所述预处理包括将获取的数据进行筛选,去除重复的SMILES数据以及无法处理的数据。
[0035]所述分子图像和拓扑图提取包括以下步骤:
[0036]对于分子图像,将SMILES转化为224
×
224
×
3的分子图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化学结构感知的分子图像表示学习方法,其特征在于,包括预训练阶段和微调阶段,所述预训练阶段包括数据获取、预处理、分子图像和拓扑图提取、分子图像和分子拓扑图数据增强、视觉特征和拓扑特征提取、模态内和模态间对比学习;所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。2.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述数据获取包括从公开的小分子数据库中收集SMILES数据。3.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述预处理包括将获取的数据进行筛选,去除重复的SMILES数据以及无法处理的数据。4.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述分子图像和拓扑图提取包括以下步骤:对于分子图像,将SMILES转化为224
×
224
×
3的分子图像;对于分子拓扑图,将SMILES转化为拓扑图结构,并初始化拓扑图中原子和键的特征,特征包括原子类型、手性类型、分子的度、电荷数、是否有环和键的类型。5.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述分子图像和分子拓扑图数据增强包括以下步骤:对于分...

【专利技术属性】
技术研发人员:向鸿鑫金淑婷曾理曾湘祥
申请(专利权)人:上海宇耀生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1