System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图神经网络预测化合物P450酶代谢位点和代谢产物的方法技术_技高网

基于图神经网络预测化合物P450酶代谢位点和代谢产物的方法技术

技术编号:40607156 阅读:3 留言:0更新日期:2024-03-12 22:13
本发明专利技术公开了一种基于图神经网络预测化合物P450酶代谢位点和代谢产物的方法,包括:使用一种基于消息传递的图神经网络模型提取化合物各原子的节点表征,然后预测各原子的代谢位点概率;选择代谢位点概率大于阈值的原子作为候选代谢位点;应用代谢反应规则库对所述候选代谢位点对应的氧化物进行结构匹配,匹配成功则生成对应的代谢产物。本发明专利技术预测方法的适用性强、准确度高,不仅能预测代谢位点,还能预测实际反应生成的代谢产物,适用于药物研发过程中的药物设计和药物优化等领域。

【技术实现步骤摘要】

本专利技术属于人工智能技术和药物研发,具体涉及一种基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法。


技术介绍

1、细胞色素p450(cytochrome p450,cyp)酶是存在于动植物、微生物和人体中的完整膜保守蛋白的超家族,参与了药物合成、类固醇和致癌物代谢的许多重要反应。在药物发现的早期,通常需要对代谢物进行研究,以支持对代谢稳定的化合物进行化学优化并研究代谢物可能具有的活性和毒性。因此在药物代谢分析中如何根据化合物的结构判断或预测其经过p450代谢酶反应后的代谢产物是一件非常重要的任务。

2、目前的代谢位点或者代谢产物预测方式是采用物理计算的方法来实现。例如可以根据分子中不同位点(相对)化学反应活性的计算结果来预测代谢位点,或者使用docking的方法来预测化合物与p450酶的结合亲和力以预测可能的代谢位点。然而这些方法大多数仅限于p450酶催化反应,而且往往只能预测代谢位点,而不能预测实际反应生成的代谢产物。

3、另一种基于知识或者规则的方法依赖于药化专家或者通过分析大量的实验代谢反应数据库得出的代谢规则。这些代谢规则匹配的方法优势在于速度快,且能生成实际的代谢产物。然而这些代谢规则库不能适用于所有的化合物,因此这种方法往往会生成大量“错误”的代谢产物。

4、近年来人工智能(artificial intelligence,ai)在药物发现和开发方面有着广泛的应用,包括药物的admet性质预测,药物分子设计和优化,预测药物代谢和药效等等。其中图神经网络(graph neural network,gnn)作为一种处理图结构数据的深度学习方法在分子表示和特征学习领域展现出巨大的潜力和优势。化合物分子可以被视为图,其中原子是节点,化学键是边。图神经网络能够学习节点(原子)和边(化学键)之间的关系,从而捕获分子的结构信息,进而用于分子属性预测,分子虚拟筛选等任务。


技术实现思路

1、针对上述现有技术中描述的不足,本专利技术提供一种基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法,不仅能够预测代谢位点,而且还可以生成对应的代谢产物,适应性强、准确度高。

2、本专利技术提供一种基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法,其特征在于,该方法包括以下步骤:

3、一种基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法,其特征在于,包括:获取目标化合物的化学结构信息,包括原子属性信息和化学键属性信息;使用一种基于消息传递的图神经网络模型基于化合物的原子属性信息和化学键属性信息编码目标化合物的各原子节点表征;输出层将各原子的节点表征转化为各原子的代谢概率,选择代谢概率大于固定值的原子作为候选代谢位点;应用代谢反应规则库对所述候选代谢位点进行匹配,匹配成功则应用该反应规则生成代谢产物,匹配不成功则删除该候选代谢位点。

4、进一步,获取目标化合物的化学结构信息包括:

5、根据化合物的化学结构信息生成对应的化学结构图;所述化学结构图包括所述原子对应的节点以及化学键对应的边;

6、根据原子和化学键的化学结构信息构建节点的初始节点特征和边的初始边特征,所述原子的属性信息包括原子序号、原子连接数、原子形式电荷、原子杂化方式,是否为芳香键、手性标记、氢键数量、相对原子质量等;所述化学键的属性信息包括化学键种类、是否成环、共轭状态、立体空间构型。

7、进一步,使用基于消息传递的图神经网络模型由输入模块、消息传递模块、gru(gate recurrent unit)序列模块、注意力模块和输出模块组成;首先输入模块将化合物的节点和边初始表征编码为隐藏层大小的表征向量,消息传递模块中按层依次进行节点和边的消息传递和特征信息更新,获得各所述节点经过多次消息传递后的节点表征,然后使用一层gru序列模型和自注意力模块获取经过全局节点表征交互后更新的各原子节点表征,最后使用全连接输出层拟合各原子的代谢位点概率。

8、进一步,所述的输入层模块由两个全连接模块组成,分别负责将化合物的节点表征和边表征头晕到大小相同的隐层向量空间,便于后续模块进行特征提取。

9、进一步,所述的消息传递模块包括:

10、所述消息传递模块将分子图结构转化为有向图,且初始的边特征由该边对应的初始边特征与边起始端原子的初始节点特征拼接组成;

11、消息传递模块由多层消息传递网络构成,每层消息传递网络由一层全连接网络组成,每层的网络参数不是共享的;

12、每层消息传递网络中使用一层全连接模块基于边的传递消息更新节点的隐藏传递消息,然后使用聚合更新的节点隐藏传递消息更新边的隐藏传递信息;

13、所述消息传递模块最后使用一层全连接模块基于节点和边的隐藏传递消息以及模块输入时的节点表征更新该节点表征。

14、进一步,所述gru序列模块包括:

15、gru序列模块由一层双向gru序列模型组成;首先化合物的节点表征经过gru序列模块后,输出各原子的双向节点表征,然后对其进行拼接,最后使用一层全连接模块将其转换为与输入大小相同的节点表征。

16、进一步,所述注意力模块包括:自注意力模块使用的是多头注意力机制,包括将各原子节点表征转化为qkv向量的三个全连接层以及由一层全连接层组成的输出层;该模块的计算步骤为,输入经过gru序列模块更新后的原子节点表征,通过多头注意力层与输出层计算后的原子节点表征与输入前原子节点表征进行残差连接,输出最终的原子节点表征。

17、进一步,所述输出层包括:输出层由由多层全连接层组成,其中每个全连接层之间还包括一层激活层和丢弃层;该模块将化合物各原子的最终节点表征转化为各原子的代谢概率,最后输出代谢概率大于0.5的原子作为候选代谢位点。

18、进一步,应用代谢反应规则库匹配代谢位点并生成代谢产物包括:首先对代谢位点的原子进行氧化生成对应的氧化物,然后使用自定义的代谢反应规则库对氧化物中代谢位点所处的子结构进行匹配,匹配成功则应用该反应规则生成代谢产物,若反应失败或者生成的代谢产物无效以及没有反应规则匹配该氧化物则删除该候选代谢位点,否则该代谢位点有效,返回代谢产物。

19、进一步,对代谢位点的原子进行氧化生成对应氧化物的步骤包括:如果代谢位点的原子为氧原子,则目标化合物本身就是氧化物;否则获取位点原子周围的原子(包括氢原子),如果邻位存在氢原子则将该氢原子替换为氧原子得到对应的氧化物;否则添加一个氧原子和连接到代谢位点原子的化学键,同时若代谢位点为氮原子或者硫原子,修改其不合理的原子价态,得到有效的氧化物。

20、进一步,自定义的代谢反应规则库包括:自定义的代谢反应规则库由药化专家根据自身领域知识与对chembl和drugbank化合代谢数据库的统计得到的,并使用smarts(smiles arbitrary target specification)规则进行描述和编码;该代谢本文档来自技高网...

【技术保护点】

1.一种基于图神经网络预测化合物P450酶代谢位点和代谢产物的方法,其特征在于,包括:

2.根据权利要求1所述的基于图神经网络预测化合物P450酶代谢位点和代谢产物的方法,其特征在于,获取目标化合物的化学结构信息包括:

3.根据权利要求1所述的基于图神经网络预测化合物P450酶代谢位点和代谢产物的方法,其特征在于,使用基于消息传递的图神经网络模型由输入模块、消息传递模块、GRU序列模块、注意力模块和输出模块组成;首先输入模块将化合物的节点和边初始表征编码为隐藏层大小的表征向量,消息传递模块中按层依次进行节点和边的消息传递和特征信息更新,获得各所述节点经过多次消息传递后的节点表征,然后使用一层GRU序列模型和自注意力模块获取经过全局节点表征交互后更新的各原子节点表征,最后使用全连接输出层拟合各原子的代谢位点概率。

4.根据权利要求3的方法,其特征在于,所述输入层模块由两个全连接模块组成,分别负责将化合物的节点表征和边表征头晕到大小相同的隐层向量空间,便于后续模块进行特征提取。

5.根据权利要求3的方法,其特征在于,所述消息传递模块包括

6.根据权利要求3所述的方法,其特征在于,所述GRU序列模块包括:

7.根据权利要求3所述的方法,其特征在于,所述注意力模块包括:自注意力模块使用的是多头注意力机制,包括将各原子节点表征转化为QKV向量的三个全连接层以及由一层全连接层组成的输出层;该模块的计算步骤为,输入经过GRU序列模块更新后的原子节点表征,通过多头注意力层与输出层计算后的原子节点表征与输入前原子节点表征进行残差连接,输出最终的原子节点表征。

8.根据权利要求3所述的方法,其特征在于,所述输出层包括:输出层由由多层全连接层组成,其中每个全连接层之间还包括一层激活层和丢弃层;该模块将化合物各原子的最终节点表征转化为各原子的代谢概率,最后输出代谢概率大于0.5的原子作为候选代谢位点。

9.根据权利要求1所述的方法,其特征在于,应用代谢反应规则库匹配代谢位点并生成代谢产物包括:首先对代谢位点的原子进行氧化生成对应的氧化物,然后使用自定义的代谢反应规则库对氧化物中代谢位点所处的子结构进行匹配,匹配成功则应用该反应规则生成代谢产物,若反应失败或者生成的代谢产物无效以及没有反应规则匹配该氧化物则删除该候选代谢位点,否则该代谢位点有效,返回代谢产物。

10.根据权利要求8所述的方法,其特征在于,对代谢位点的原子进行氧化生成对应氧化物的步骤包括:如果代谢位点的原子为氧原子,则目标化合物本身就是氧化物;否则获取位点原子周围的原子,如果邻位存在氢原子则将该氢原子替换为氧原子得到对应的氧化物;否则添加一个氧原子和连接到代谢位点原子的化学键,同时若代谢位点为氮原子或者硫原子,修改其不合理的原子价态,得到有效的氧化物。

...

【技术特征摘要】

1.一种基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法,其特征在于,包括:

2.根据权利要求1所述的基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法,其特征在于,获取目标化合物的化学结构信息包括:

3.根据权利要求1所述的基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法,其特征在于,使用基于消息传递的图神经网络模型由输入模块、消息传递模块、gru序列模块、注意力模块和输出模块组成;首先输入模块将化合物的节点和边初始表征编码为隐藏层大小的表征向量,消息传递模块中按层依次进行节点和边的消息传递和特征信息更新,获得各所述节点经过多次消息传递后的节点表征,然后使用一层gru序列模型和自注意力模块获取经过全局节点表征交互后更新的各原子节点表征,最后使用全连接输出层拟合各原子的代谢位点概率。

4.根据权利要求3的方法,其特征在于,所述输入层模块由两个全连接模块组成,分别负责将化合物的节点表征和边表征头晕到大小相同的隐层向量空间,便于后续模块进行特征提取。

5.根据权利要求3的方法,其特征在于,所述消息传递模块包括:

6.根据权利要求3所述的方法,其特征在于,所述gru序列模块包括:

7.根据权利要求3所述的方法,其特征在于,所述注意力模块包括:自注意力模块使用的是多头注意力机制,包括将各原子节点表征转化为qkv向...

【专利技术属性】
技术研发人员:黄佳文徐立炎洪亮韩敏刘才平雷皇书
申请(专利权)人:天智药成科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1