一种基于图注意力网络的芳香硝基化合物毒性预测方法技术

技术编号:39767056 阅读:7 留言:0更新日期:2023-12-22 02:20
本发明专利技术提供一种基于图注意力网络的芳香硝基化合物毒性预测方法,包括:步骤1:数据预处理,收集芳香硝基化合物及其毒性数据作为模型数据集,并把化合物分子式转化为图数据,再采用增加自身环回和节点洗牌法进行数据增强;步骤2:建立图卷积神经网络模型,由图卷积边注意力

【技术实现步骤摘要】
一种基于图注意力网络的芳香硝基化合物毒性预测方法


[0001]本专利技术涉及化合物毒性预测
,特别是一种基于图注意力网络的芳香硝基化合物毒性预测方法


技术介绍

[0002]芳香硝基化合物,由于制备容易

价格较低和稳定性好,广泛应用于染料

炸药

农药

香料

医药

塑料

涂料等化学工业生产中,是最大的化工原料

芳香族硝基化合物属中等毒到低毒类,具有免疫毒性

皮肤致敏性

生殖细胞变性

致突变性和致癌性,在工业生产和使用中,主要以废水

粉尘和蒸气等形式污染环境,影响人体健康

本类物质大多能氧化血红蛋白为高铁血红蛋白,使它失去携氧功能,严重时能引起中枢神经系统兴奋症状及其它神经系统症状,如头部沉重

头胀

头晕

头痛

耳鸣

手指麻木

全身乏力等等

因此,为防止芳香族硝基化合物对环境的污染和人体的危害,应该在化合物研发或应用的早期进行其毒性评价

因此,如何及时

快速

准确预测芳香族硝基化合物分子毒性具有重要价值

[0003]随着计算机技术和化学生物学技术的迅猛发展,越来越多的统计学方法应用到构建化合物性质预测模型领域

当前主流的分子毒性预测方法为基于定量构效关系
(Quantitative Structure Activity Relationship

QSAR)
与机器学习结合的模型来预测分子性质

该方法主要通过分析化合物结构特征与毒性之间的关系,建立与结构相关的毒性预测模型

目前,分子结构特征主要通过第三方化学软件根据优化的化学结构计算分子描述符

分子指纹等分子结构相关变量

经典机器学习算法有随机森林

支持向量机

朴素贝叶斯模型和决策树等,通过简单非线性模型来捕捉结构和分子毒性之间复杂的关系,将输入特征在模型中进行映射进而预测结果

[0004]随着深度学习的快速发展,其在计算机辅助药物设计

分子毒性预测等方面逐渐得到广泛应用
。Duvenaud
等提出的基于神经网络的分子指纹的端到端分子性质预测模型

近年来,图神经网络
(Graph Neural Networks

GNN)
在生物化学领域的应用变得越来越流行,研究表明该模型的性能表现良好,在测试集精度方面要高于传统机器学习方法

[0005]传统预测模型存在以下缺点:
[0006]1)
传统机器学习方法只能处理固定大小的输入,学习能力不足;
[0007]2)
需要采用特定化学软件先对化学分子进行
3D
生成和结构优化;
[0008]3)
需要运用特定化学软件生成和使用特定的分子描述符,不同的化学分子结构优化和分子描述符计算软件会导致生成的分子描述符差异很大,特别是三维及以上分子描述符;同时,描述符在计算的时候本身就需要用一些公式对化合物的性质或结构进行概括,这相当于加大了模型学习的不确定性


技术实现思路

[0009]有鉴于此,本专利技术的目的在于提供一种基于图注意力网络的芳香硝基化合物毒性预测方法,可快速准确预测芳香硝基化合物的急性口服毒性,预测相对误差为
0.26
,预测准
确性接近
90
%,极大提高化合物结构优化和虚拟筛的效率,可为芳香硝基类化学品生态风险评价和管理提供重要的数据支持

[0010]为实现上述目的,本专利技术采用如下技术方案:一种基于图注意力网络的芳香硝基化合物毒性预测方法,包括以下步骤:
[0011]步骤1:数据预处理,收集芳香硝基化合物及其毒性数据作为模型数据集,并把化合物分子式转化为图数据,再采用增加自身环回和节点洗牌法进行数据增强;
[0012]步骤2:建立图卷积神经网络模型,由图卷积边注意力

图卷积

节点信息汇聚三个模块组成;
[0013]步骤3:实验设置,包括优化器选择

损失函数设计以及学习率设置及其下降策略选择;
[0014]步骤4:模型评估,采用8种模型评价指标来验证模型的有效性

[0015]在一较佳的实施例中,所述步骤1中数据为
SMILES
分子式;
SMILES
分子式通过在化学分子图的深度优先遍历中遇到的符号节点而获得相应的字符串,将分子表示为无信息丢失的完整的分子图结构;在输入图卷积神经网络
GCN
时,要将
SMILES
分子式转化为图数据,步骤如下:
[0016]步骤
S1
:利用深度图学习框架
DGL
和化学信息学工具
RDKit
,把待测化合物
SMILES
字符串转化为对应的图数据;
[0017]一个分子用一个无向图
G(v,e)
来表示,其中分子中的原子对应节点
v
,化学键对应边
e
;提取原子特征包括元素种类

隐含价

价电子

成键

电荷

杂化类型
26
维信息,边特征包括单键

双键

三键

成环

芳香环

共轭6维信息;如一个
SMILES
分子式
:
[0018]CN1C(

O)C2

C(C

C(C

C2)[N+]([O

])

O)C1

O
,经转化获得一张图,其节点数为
15
,边数为
32
,每个节点的特征为
26
维向量,每条边的特征为6维向量,即把每一个分子转为为固定形状的图结构;
[0019]步骤
S2
:采用增加自身环回和节点洗牌法进行数据增强;自身环回指的是给每个节点加上自己和自己的环回,让网络能找到和自身的关系;节点洗牌指的是把一个图的节点打乱,但边本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于图注意力网络的芳香硝基化合物毒性预测方法,其特征在于,包括以下步骤:步骤1:数据预处理,收集芳香硝基化合物及其毒性数据作为模型数据集,并把化合物分子式转化为图数据,再采用增加自身环回和节点洗牌法进行数据增强;步骤2:建立图卷积神经网络模型,由图卷积边注意力

图卷积

节点信息汇聚三个模块组成;步骤3:实验设置,包括优化器选择

损失函数设计以及学习率设置及其下降策略选择;步骤4:模型评估,采用8种模型评价指标来验证模型的有效性
。2.
根据权利要求1所述的一种基于图注意力网络的芳香硝基化合物毒性预测方法,其特征在于,所述步骤1中数据为
SMILES
分子式;
SMILES
分子式通过在化学分子图的深度优先遍历中遇到的符号节点而获得相应的字符串,将分子表示为无信息丢失的完整的分子图结构;在输入图卷积神经网络
GCN
时,要将
SMILES
分子式转化为图数据,步骤如下:步骤
S1
:利用深度图学习框架
DGL
和化学信息学工具
RDKit
,把待测化合物
SMILES
字符串转化为对应的图数据;一个分子用一个无向图
G(v,e)
来表示,其中分子中的原子对应节点
v
,化学键对应边
e
;提取原子特征包括元素种类

隐含价

价电子

成键

电荷

杂化类型
26
维信息,边特征包括单键

双键

三键

成环

芳香环

共轭6维信息;如一个
SMILES
分子式
:CN1C(

O)C2

C(C

C(C

C2)[N+]([O

])

O)C1

O
,经转化获得一张图,其节点数为
15
,边数为
32
,每个节点的特征为
26
维向量,每条边的特征为6维向量,即把每一个分子转为为固定形状的图结构;步骤
S2
:采用增加自身环回和节点洗牌法进行数据增强;自身环回指的是给每个节点加上自己和自己的环回,让网络能找到和自身的关系;节点洗牌指的是把一个图的节点打乱,但边的位置保持不变
。3.
根据权利要求1所述的一种基于图注意力网络的芳香硝基化合物毒性预测方法,其特征在于,步骤2中,图卷积神经网络由图卷积边注意力

图卷积

节点信息汇聚三个模块组成;设图中节点
v
i
在第...

【专利技术属性】
技术研发人员:陈梅妹李灿东杨朝阳王洋
申请(专利权)人:福建中医药大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1