基于深度学习的有机污染物分子毒性预测方法和装置制造方法及图纸

技术编号：41199876 阅读：5 留言：0更新日期：2024-05-07 22:26

本发明专利技术涉及分子毒性检测技术领域，并提供基于深度学习的有机污染物分子毒性预测方法和装置，该方法可以从分子描述符和分子图像中提取特征，并基于学习的特征进行毒性预测。包括：使用化学信息学工具包RDKit获取有机污染物的SMILES表示。接着，利用双向循环神经网络(BIGRU)对分子的SMILES字符串进行学习和表示，使用图注意力神经网络(GAT)对分子的图结构进行建模和学习。通过融合层对BIGRU和GAT的输出进行特征融合，构建有机污染物分子毒性预测模型，本方法在预测结果的准确性和可靠性上具有明显的优势，有望在分子毒性检测领域得到广泛应用，从而为化学品生产和使用提供更加全面、准确的安全保障。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分子毒性检测，尤其涉及基于深度学习的有机污染物分子毒性预测方法和装置。

技术介绍

1、随着工业化和城市化的发展，各种化学物质被广泛使用，其中一些可能对人类健康和生态环境造成潜在危害。截至2021年，在《美国化学文摘》上注册的化学品数量已达1.5亿种，并且每年以数万种的速度增长。这些新合成的化合物大多数从未在自然界中发现过。一方面，这些化学品的生产极大地丰富了人类的物质世界，给人类生活带来了便利和享受；另一方面，人类在生产、运输、使用和处置这些化学品时，不可避免地会将一些有害化学物质排放到环境中，破坏自然环境，对人类健康和生态系统造成严重危害和影响。

2、为了获得有机化合物的毒性信息，在过去的几十年里，化合物的毒理学信息通常是通过动物实验来获得的，但传统的动物实验往往存在一些弊端，它需要大量的人力、物力和财力，并且不能在合理的时间内通过生物特征识别测试来实现。开发替代动物实验的计算机预测方法来预测化合物的毒性是很重要的。基于深度学习的毒性预测从化合物的分子结构开始，在提取化合物的分子描述符或分子指纹后，建立机器学习模型来预测化合物的分子毒性。

3、到目前为止，深度学习发展迅速，不仅在自然语言处理、计算机视觉、人工智能等领域引起了广泛的关注，而且在其他各个领域也得到了广泛的应用。随着深度学习的不断发展，分子表征也出现在一些不同于分子指纹和分子描述符的表达中。例如，基于一维序列的简化分子输入规范smiles表示和基于二维分子图的表示被广泛使用。

4、本专利技术提出一种新的方法来预测污染

技术实现思路

1、针对上述问题，本专利技术提供基于深度学习的有机污染物分子毒性预测方法和装置，为解决上述问题，本专利技术所采用的技术方案是：

2、基于深度学习的有机污染物分子毒性预测方法和装置，包括以下步骤：

3、s1:使用化学信息学工具包rdkit获取有机污染物的smiles表示；

4、s2:将步骤s1中得到的smiles字符串转换为one-hot编码，使用bigru提取smiles字符串的特征信息；

5、s3:使用rdkit将步骤s1中获取的smiles表示转换为分子图，使用gat进行特征提取；

6、s4:基于步骤s2和步骤s3构建分子毒性预测模型；

7、s5:验证步骤s4得到的分子毒性预测模型的模型性能。

8、优选地，所述s1步骤包括以下步骤：

9、s11:通过化学名或cas号获取有机污染物的分子对象；

10、s12:利用rdkit工具包，可以将有机污染物的分子对象转换为对应的smiles表示；

11、s13:将数据集按照一定比例随机划分为训练集和测试集。

12、优选地，所述s2步骤包括以下步骤：

13、s21:使用rdkit将smiles字符串转换为分子对象，并将分子对象转换为领接矩阵，使用numpy工具包生成单位矩阵；

14、s22:将领接矩阵与单位矩阵相加，得到分子的one-hot编码；

15、s23:使用tensorflow库搭建bigru模型；

16、s24:将输入层输入到一层embedding层，将one-hot编码转换为低维向量表示；

17、s25:使用一层gru层来提取分子的特征信息，将提取到的特征输入到输出层，得到分子的特征表示。

18、优选地，所述s3步骤包括以下步骤：

19、s31:使用rdkit工具包将smiles字符串转化为分子对象；

20、s32:使用rdkit中的函数将分子对象转换为dgl图，并指定节点特征维度为120，边特征维度为5；

21、s33:使用pytorch定义gat模型；

22、s34:将dgl图输入到模型中，获得分子的特征表示。

23、优选地，所述s4步骤包括以下步骤：

24、s41:假设xn＝{x1,x2…,xn}为输入序列，输入向量xt是时间t处的输入，ht是每个循环神经网络在时间t的隐藏状态。通过bigru模型，捕捉输入序列中的长程依赖关系，并且得到每个时间步上的隐藏状态表示，用于后续的预测任务。更新门和复位们按如下方式计算：

25、rt＝σ(xtwxr+ht-4whr)

26、zt＝σ(xtwxz+ht-2whz)

27、

28、

29、其中，rt和zt是时间t的复位门和更新门，σ是sigmoid函数，它可以数据转化为0-1范围内的值以用作门控信号，⊙是按位乘法，wxrwhrwxzwhzwhzwhh表示相应的权重系数。

30、s42:使用gat对来处理分子图像，假设分子特征矩阵为h＝{h1,h2...,hn),hi∈rf，hi是第(i)个分子节点的特征，gat模型利用注意力机制对节点之间的关系进行建模，从而捕捉节点之间的重要性。在每个节点上，gat会计算该节点与其他节点之间的相似度，并将相似度作为权重进行加权求和，输出更新后的节点特征向量，用于后续的预测任务，具体步骤如下：

31、gat模型通过计算节点之间的注意力系数来决定节点之间的关系重要性，注意力系数通过以下方式计算：

32、

33、其中，w∈rf′×f是对每个原子节点的特征进行线性变换，将输入特征转换成更高级别的特征，eij为注意力系数，表示邻居原子节点j对i的重要程度，at∈r2f′为注意力权重矩阵，||表示向量拼接。

34、使用softmax对eij进行归一化处理：

35、

36、其中，k为邻居原子节点j外的其他邻居节点信息，通过归一化后得到注意力系数aij。

37、对于分子特征矩阵x中的第i个原子节点特征h'i，图注意力神经网络层输出如下：

38、

39、其中，h'i∈rf表示原子节点i的所有邻居节点，σ为激活函数。

40、s43:对于每个化学分子式，使用连接层来组合文本上下文信息特征向量bn与从分子图捕获的结构特征向量dg融合获得结合向量ym。

41、

42、其中，wf6和wf7是权重矩阵

43、然后，将融合后的特征向量ym输入到全连接中，最后，使用softmax函数得到正类的概率pi。

44、优选地，所述s5步骤包括以下步骤：

45、s51:将原始数据集分割成k个大小相等的子集(称为折叠),对于每个折叠，选择其中一个作为验证集，其余k-1个折叠作为训练集；

46、s52:在每次训练时，使用训练集对模型进行训练，并在验证集上进行性能评估；

47、本文档来自技高网...

【技术保护点】

1.基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

3.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

4.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

5.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

6.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

【技术特征摘要】

1.基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

3.根据权利要求1所述的基于深度学习的有机污染物分子毒性预测方法和装置，其特征在于，

<...

【专利技术属性】
技术研发人员：付国林，李燕，丁成，张麓岩，陈天明，
申请(专利权)人：盐城工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人