System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 融合通道注意力和Transformer的分子性质预测方法技术_技高网
当前位置: 首页 > 专利查询>福州大学专利>正文

融合通道注意力和Transformer的分子性质预测方法技术

技术编号:40963391 阅读:2 留言:0更新日期:2024-04-18 20:42
本发明专利技术提供一种融合通道注意力和Transformer的分子性质预测方法,包括以下步骤:步骤一,根据待预测分子SMILES字符串信息,提取原子的特征和化学键特征,构建以原子为节点的分子图;步骤二,对步骤一获得的分子图节点特征加入基于步数的最短距离嵌入;步骤三,基于Transformer模型,对步骤二得到的分子结构进行训练,融入空间编码和边缘编码,在训练的过程中使用DropKey操作,得到分子结构理解增强模型并输出预测结果;步骤四,根据步骤三得到的预测结果经由通道注意力,得到分子性质预测效果的数据。本发明专利技术的分子结构预测模型可以方便的应用于各种性质领域的分子预测任务,通过融合通道注意力和空间注意力,提高了模型的预测准确性。

【技术实现步骤摘要】

本专利技术属于分子性质预测,具体涉及一种融合通道注意力和transformer的分子性质预测方法。


技术介绍

1、新物质材料的发现往往能够带动技术的发展和进步,而新材料的研究与开发往往需要对化合物进行许多性质的测定。以药物研发为例,研究报告数据显示,尽管药物在临床前开发中花费的时间比在临床试验中花费的时间要少得多,但是临床前开发平均占公司药物研发总支出的31%,考虑到资本成本,临床前阶段的研发支出份额上升至43%。因此,通过纯粹实验的方法来探索化学空间付出的代价是昂贵的,使用深度学习等方法是非常有必要的。

2、近年来,随着深度学习的发展,计算机辅助分子预测技术取得了重大突破。当前可以分为基于序列的方法、基于图的方法、基于图像的方法和基于3d图的方法4大类。基于序列的方法使用smile,它类似于自然语言,每个原子都是句子中的一个词。此类方法直接简单,计算量小,但仅使用序列而忽略了其他信息,特别是分子内的原子关系、原子基团以及键的类型也可能与分子性质有关。基于图的方法中,原子被表示为节点,化学键被表示为边,每个节点都有自己的特征。此类方法的数据结构更加直接,可以存储和表示大多数结构信息,但也存在着层数过多时会出现过度平滑的问题。对于基于图像生成的方法,最简单的方法是将数据通过rdkit和open babel等软件转换成分子图像。该类方法必须将数据样本转换到欧式空间,由于缺乏原子和键属性,并不适合分子性质预测任务。基于3d图的方法中,分子的构象通常包含分子的原子3d坐标,可以为分子性质预测提供额外的空间信息。此类方法在分子性质预测中取得了非常好的成绩,但是想要得到3d图需要使用密度泛函理论(dft),dft是十分耗时的,这与加快材料与药物研发进程的初衷是违背的,且目前只有少数数据集支持3d图。从计算成本的角度考虑,使用基于图的方法是比较合适的。同时,transformer模型在许多人工智能领域上取得了巨大成功,在图结构的数据建模方面也已被证明具有巨大潜力。transformer结构通过捕获长距离依赖显性关系,建模全局上下文信息,在自然语言处理和计算机视觉等领域获得了出色的表现,其全局建模能力也是分子性质预测任务十分需要的。

3、尽管如此,目前的模型离化学界确定的0.043ev的化学精度还有一定差距,这是一个实用性指标。因此,化学和材料领域分子性质预测模型预测效果欠佳是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种融合通道注意力和transformer的分子性质预测方法,包括以下步骤:步骤一,根据待预测分子smiles字符串信息,提取原子的特征和化学键特征,构建以原子为节点的分子图;步骤二,对步骤一获得的分子图节点特征加入基于步数的最短距离嵌入;步骤三,基于transformer模型,对步骤二得到的分子结构进行训练,融入空间编码和边缘编码,在训练的过程中使用dropkey操作,得到分子结构理解增强模型并输出预测结果;步骤四,根据步骤三得到的预测结果经由通道注意力,得到分子性质预测效果的数据。本专利技术的分子结构预测模型可以方便的应用于各种性质领域的分子预测任务,通过融合通道注意力和空间注意力,提高了模型的预测准确性。这种融合机制有助于模型自动选择具有重要信息的特征通道,并强调这些通道中的关键特征,从而提高分子性质预测的准确性。

2、本专利技术解决其技术问题具体采用的技术方案是:

3、一种融合通道注意力和transformer的分子性质预测方法,包括以下步骤:

4、步骤一,根据待预测分子smiles字符串信息,提取原子的特征和化学键特征,构建以原子为节点的分子图;

5、步骤二,对步骤一获得的分子图节点特征加入基于步数的最短距离嵌入;

6、步骤三,基于transformer模型,对步骤二得到的分子结构进行训练,融入空间编码和边缘编码,在训练的过程中使用dropkey操作,得到分子结构理解增强模型并输出预测结果;

7、步骤四,根据步骤三得到的预测结果经由通道注意力,得到分子性质预测效果的数据。

8、进一步地,在步骤一中,根据待预测分子smiles字符串信息,将smiles转换为molecule对象并生成一个空的dgl图,为dgl图添加节点和边缘后,提取原子的特征和化学键特征,构建以原子为节点的分子图;

9、进一步地,所述分子图为二维分子图,以原子为节点,化学键为边;所述节点特征包括原子类型、化学价、是否在芳香环内、是否在环内中的一种或多种;边特征包括化学键的类型和/或是否为共轭键;分子图通过嵌入层将节点的原子序数、原子形式电荷、原子杂化方式和原子连接化学键的数量信息进行编码形成节点的二维特征。

10、进一步地,在步骤二中,对步骤一获得的分子图节点特征加入基于步数的最短距离嵌入,使用弗洛伊德算法得到分子图节点间的最短路径信息,将得到的最短距离表示为步数,再使用嵌入层将步数映射为相应的向量表示。

11、进一步地,在步骤三中,所述分子结构理解增强模型的基本框架由两个相同的模块组成,每个模块中,编码器encoder由6个编码block组成,通道注意力mcga由1个block组成;

12、transformer的编码器由多个相同的层叠加而成,每个层都有两个子层,第一个子层是多头自注意力层,第二个子层是多层感知机;

13、transformer编码器的输入为分子节点构成的序列;每个序列位置都有一个对应的词嵌入或其他特征表示,构成输入嵌入矩阵;为了保留元素在序列中的位置信息,引入位置编码;所述位置编码是一组固定的向量,添加到输入嵌入矩阵中,以表示不同位置的单词、元素或分子节点;

14、在模型的每个子层都采用残差连接和紧随的层规范化围绕。

15、进一步地,在多头自注意力的的输出上应用残差连接,将输入与输出相加,残差连接g(x)的函数表达式为:g(x)=f(x)+x;式中,x为主模型输入前的向量空间,f(x)为经过主模型计算后的结果。

16、进一步地,在多头自注意力的的输出上应用残差连接,将输入与输出相加,残差连接g(x)的函数表达式为:g(x)=f(x)+x;式中,x为主模型输入前的向量空间,f(x)为经过主模型计算后的结果。

17、进一步地,使用弗洛伊德算法得到分子图节点间的最短路径信息,同时节点的根据最短路径得到该路径上的边缘特征,最终将空间编码信息和边缘编码信息融入多头自注意力:

18、在transformer编码器的多头注意力层的空间编码中,采用函数φ(v i, v j),用于衡量图中节点v i和v j之间的空间关系,通过φ(v i, v j)表示v i和v j之间的最本文档来自技高网...

【技术保护点】

1.一种融合通道注意力和Transformer的分子性质预测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:在步骤一中,根据待预测分子SMILES字符串信息,将SMILES转换为molecule对象并生成一个空的dgl图,为dgl图添加节点和边缘后,提取原子的特征和化学键特征,构建以原子为节点的分子图。

3.根据权利要求2所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:所述分子图为二维分子图,以原子为节点,化学键为边;所述节点特征包括原子类型、化学价、是否在芳香环内、是否在环内中的一种或多种;边特征包括化学键的类型和/或是否为共轭键;分子图通过嵌入层将节点的原子序数、原子形式电荷、原子杂化方式和原子连接化学键的数量信息进行编码形成节点的二维特征。

4.根据权利要求1所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:在步骤二中,对步骤一获得的分子图节点特征加入基于步数的最短距离嵌入,使用弗洛伊德算法得到分子图节点间的最短路径信息,将得到的最短距离表示为步数,再使用嵌入层将步数映射为相应的向量表示。

5.根据权利要求1所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:

6.根据权利要求5所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:在多头自注意力的的输出上应用残差连接,将输入与输出相加,残差连接g(x)的函数表达式为:g(x)=f(x)+x;式中,x为主模型输入前的向量空间,f(x)为经过主模型计算后的结果。

7.根据权利要求5所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:在多头自注意力的的输出上应用残差连接,将输入与输出相加,残差连接g(x)的函数表达式为:g(x)=f(x)+x;式中,x为主模型输入前的向量空间,f(x)为经过主模型计算后的结果。

8.根据权利要求5所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:使用弗洛伊德算法得到分子图节点间的最短路径信息,同时节点的根据最短路径得到该路径上的边缘特征,最终将空间编码信息和边缘编码信息融入多头自注意力:

9.根据权利要求5所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:在步骤三中,在多头自注意力层中引入DropKey操作,以使模型适应噪声。

10.根据权利要求1所述的融合通道注意力和Transformer的分子性质预测方法,其特征在于:在步骤四中,采用的通道注意力MCGA包含两个关键支路,一条支路通过全局最大池化、卷积核大小为3的卷积和Sigmoid激活函数,另一条支路采用一个卷积核大小为1的卷积作为门控机制;

...

【技术特征摘要】

1.一种融合通道注意力和transformer的分子性质预测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的融合通道注意力和transformer的分子性质预测方法,其特征在于:在步骤一中,根据待预测分子smiles字符串信息,将smiles转换为molecule对象并生成一个空的dgl图,为dgl图添加节点和边缘后,提取原子的特征和化学键特征,构建以原子为节点的分子图。

3.根据权利要求2所述的融合通道注意力和transformer的分子性质预测方法,其特征在于:所述分子图为二维分子图,以原子为节点,化学键为边;所述节点特征包括原子类型、化学价、是否在芳香环内、是否在环内中的一种或多种;边特征包括化学键的类型和/或是否为共轭键;分子图通过嵌入层将节点的原子序数、原子形式电荷、原子杂化方式和原子连接化学键的数量信息进行编码形成节点的二维特征。

4.根据权利要求1所述的融合通道注意力和transformer的分子性质预测方法,其特征在于:在步骤二中,对步骤一获得的分子图节点特征加入基于步数的最短距离嵌入,使用弗洛伊德算法得到分子图节点间的最短路径信息,将得到的最短距离表示为步数,再使用嵌入层将步数映射为相应的向量表示。

5.根据权利要求1所述的融合通道注意力和transformer的分子性质预测方法,其特征在于:

6.根据权利要求5所述的融合通道注意力和t...

【专利技术属性】
技术研发人员:林坚普吴则仕林志贤林珊玲吕珊红
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1