基于粗细粒度分类的药代动力学和毒性预测方法技术

技术编号:37764046 阅读:11 留言:0更新日期:2023-06-06 13:22
本发明专利技术公开了一种基于粗细粒度分类的药代动力学和毒性预测方法,提出一个基于多任务的可解释模型,即MCF

【技术实现步骤摘要】
基于粗细粒度分类的药代动力学和毒性预测方法


[0001]本专利技术属于人工智能辅助药物研发
,具体涉及为一种基于粗细粒度分类的药代动力学和毒性预测方法。

技术介绍

[0002]药物代谢动力学问题及安全问题是导致大部分候选药物失败的原因。相比耗时费钱的传统体内和体外评估方法,人工智能提供了一种高效低廉的药代动力学及安全性预估方法。尽管从人工智能的角度来看,分子代谢动力性质预测与分子属性预测形式相似,但是除了受到分子属性的影响之外,其代谢动力性质很大程度上由体内复杂代谢系统所决定。
[0003]近年来,基于人工智能预测小分子化合物代谢动力学和毒性取得了很大的进展。总的来说,大多数方法,特别是机器学习和深度学习模型,已经被证明可以有效地分析当前大量的药代动力学和毒性数据,并对新化合物进行预测。早期的方法利用分子指纹和浅层分类器来实施评估和预测。admetSAR模型应用MACCS分子指纹和支持向量机预测27个代谢动力性质。因为分子指纹具有良好的可解释性,此类方法一直具有良好的竞争力。近期,FP

ADMET模型利用20种分子指纹和随机森林预测了76种性质。然而,这些方法只能为每一种性质单独构建预测模型,无法同时实现多个性质预测任务的信息共享。随着深度学习的发展,GNN(图神经网络)特别是GCN(图卷积网络层)逐渐代替了分子指纹作为了新的特征表示方法,DNN(深度神经网算法)逐渐替代了随机森林等浅层分类器。近年来,人们尝试使用多任务学习来捕获代谢动力性质之间的潜在依赖关系。2020年,Feinberg等人利用带有门控循环单元(GRU)的GCN提取任务特定的分子特征表示,实现了多任务的药代动力学及毒性预测。2021年,Xiong等人利用关系GCN提取分子结构特征,设计任务特定的注意力层来捕获任务特定的特征,构建了一种基于多任务图注意力网络的预测模型。这些基于多任务的图表示模型结合多层神经网络被成功应用在药物设计领域中。然而,尽管在小分子药代动力学和毒性预测方面科研人员做出了非常大的努力,取得了显著的成就,但是在实际工作中仍然存在着不小的挑战,主要表现在以下几方面:
[0004]1)对多任务学习的终点数据共有特征与特有特征考虑不够充分,目前的方法中没有考虑任务特定的特征。
[0005]2)对官能团解释性不足。缺乏化合物官能团与药代动力学和毒性的关系,不能通过药物本身的官能团去解释为什么属于这种药代动力学或毒性终点。
[0006]鉴于此,有必要设计一种新的预测方法。

技术实现思路

[0007]本专利技术的目的在于解决现有技术所存在的不足之处,而提供了一种基于粗细粒度分类的药代动力学和毒性预测方法。
[0008]本专利技术的构思:
[0009]本专利技术提出一个基于粗细粒度分类的药代动力学和毒性预测模型,即MCF

PT。根
据小分子物代谢动力性质(P)和毒性(T)的生物内涵构建PT模型,实现粗粒度(C)和细粒度(F)任务分级。构建两层软参数(粗粒度嵌入模块和细粒度嵌入模块中涉及的参数)共享多任务(M)框架,设计粗粒度任务特定模块以及细粒度任务特定模块,捕获粗、细粒度任务之间以及细粒度任务之间的依赖关系。研究基于多任务学习框架的基于粗细粒度分类的药代动力学和毒性预测方法。
[0010]MCF

PT模型分为粗粒度和细粒度两个粒度级别,粗粒度层级侧重不同组织器官相关的性质分类(如吸收、分布、代谢、排泄、毒性),细粒度层级关注同一器官内部相似类别之间的细微差异(如肝脏毒性I型和II型)。考虑到一个小分子会引发多种PT性质变化,拟采用两级软参数共享多任务框架作为模型总体构架。
[0011]鉴于上述专利技术构思,本专利技术为实现专利技术目的所提供的技术解决方案是:
[0012]基于粗细粒度分类的药代动力学和毒性预测方法,其特殊之处在于,包括以下步骤:
[0013]1)构建基于粗细粒度分类的药代动力学和毒性预测模型MCF

PT
[0014]所述药代动力学和毒性预测模型MCF

PT包括粗粒度嵌入模块和细粒度嵌入模块,并由粗粒度嵌入模块输出到细粒度嵌入模块进行药代动力学和毒性的预测;
[0015]所述粗粒度嵌入模块包括多层图卷积网络层GCN(即依次设置的图卷积网络层)以及门控单元;其中,GCN用于对各个粗粒度任务独特表示特征以及粗粒度任务间的共享表示特征进行提取和区分;门控单元则是用于将共享表示特征融入到各个具体的独特表示特征中去;
[0016]所述细粒度嵌入模块包括依次设置的多层图注意力网络层、门控单元及全连接层神经网络层;
[0017]2)采集样本数据,对步骤1)构建的药代动力学和毒性预测模型进行训练
[0018]2.1)采集药物分子的结构信息以及其对应的药代动力学和毒性的信息,构建训练数据集、验证数据集和测试数据集;
[0019]2.2)将步骤2.1)获得的各个数据中涉及化合物分子的SMILES(简化分子线性输入规范,Simplified molecular input line entry specification)序列信息转换为化合物图,得到化合物结构数据;
[0020]2.3)使用步骤2.2)得到的化合物结构数据,通过粗粒度嵌入模块中多层图卷积网络层GCN提取各个粗粒度任务(各个粗粒度任务分别为:吸收、分布、代谢、排泄、毒性)的独特表示特征以及粗粒度任务间的共享表示特征;随后通过粗粒度嵌入模块中的门控单元将粗粒度任务间的共享表示特征与各个粗粒度任务的独特表示特征分别进行融合,得到各个粗粒度任务的最终表示特征y1、y2、y3、y4、y5,并将其作为细粒度嵌入模块的输入;
[0021]2.4)通过细粒度嵌入模块中的多层图注意力网络层获取每个粗粒度任务下各个细粒度任务的特定表示特征以及细粒度任务间的共享表示特征;随后通过细粒度嵌入模块中的门控单元将每个粗粒度任务下的细粒度任务间的共享表示特征与各个细粒度任务的特定表示特征分别进行融合,得到各个细粒度任务的加权表示特征;
[0022]2.5)将步骤2.4)得到的各个细粒度任务的加权表示特征经过细粒度嵌入模块中进行预测的全连接层神经网络层作为细粒度任务的输出特征向量;
[0023]2.6)利用交叉熵损失函数计算步骤2.5)得到的输出特征向量与步骤2.1)采集的
原始标签之间的损失,根据损失残差通过负反馈调节更新药代动力学和毒性预测模型中可训练的参数(即调节模型中的参数),经过多次训练后得到最终药代动力学和毒性预测模型;
[0024]3)利用步骤2)训练好的药代动力学和毒性预测模型,对药物分子的药代动力学和毒性进行预测。
[0025]进一步地,步骤2.2)中,使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图(即化合物图);化合物图被表示为G=(V,E),其中,V是N个节点的集合,E是边的集合;
[0026]此处,每个节点是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于粗细粒度分类的药代动力学和毒性预测方法,其特征在于,包括以下步骤:1)构建基于粗细粒度分类的药代动力学和毒性预测模型MCF

PT所述药代动力学和毒性预测模型MCF

PT包括粗粒度嵌入模块和细粒度嵌入模块,并由粗粒度嵌入模块输出到细粒度嵌入模块进行药代动力学和毒性的预测;所述粗粒度嵌入模块包括多层图卷积网络层GCN以及门控单元;所述细粒度嵌入模块包括依次设置的多层图注意力网络层、门控单元及全连接层神经网络层;2)采集样本数据,对步骤1)构建的药代动力学和毒性预测模型进行训练2.1)采集药物分子的结构信息以及其对应的药代动力学和毒性的信息,构建训练数据集、验证数据集和测试数据集;2.2)将步骤2.1)获得的各个数据中涉及化合物分子的SMILES序列信息转换为化合物图,得到化合物结构数据;2.3)使用步骤2.2)得到的化合物结构数据,通过粗粒度嵌入模块中多层图卷积网络层GCN提取各个粗粒度任务的独特表示特征以及粗粒度任务间的共享表示特征;随后通过粗粒度嵌入模块中的门控单元将粗粒度任务间的共享表示特征与各个粗粒度任务的独特表示特征分别进行融合,得到各个粗粒度任务的最终表示特征y1、y2、y3、y4、y5,并将其作为细粒度嵌入模块的输入;2.4)通过细粒度嵌入模块中的多层图注意力网络层获取每个粗粒度任务下各个细粒度任务的特定表示特征以及细粒度任务间的共享表示特征;随后通过细粒度嵌入模块中的门控单元将每个粗粒度任务下的细粒度任务间的共享表示特征与各个细粒度任务的特定表示特征分别进行融合,得到各个细粒度任务的加权表示特征;2.5)将步骤2.4)得到的各个细粒度任务的加权表示特征经过细粒度嵌入模块中进行预测的全连接层神经网络层作为细粒度任务的输出特征向量;2.6)利用交叉熵损失函数计算步骤2.5)得到的输出特征向量与原始标签之间的损失,再通过负反馈调节更新药代动力学和毒性预测模型中可训练的参数,经过多次训练后得到最终药代动力学和毒性预测模型;3)利用步骤2)训练好的药代动力学和毒性预测模型,对药物分子的药代动力学和毒性进行预测。2.根据权利要求1所述基于粗细粒度分类的药代动力学和毒性预测方法,其特征在于:步骤2.2)中,使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图;化合物图被表示为G=(V,E),其中,V是N个节点的集合,E是边的集合;此处,每个节点是一个多维的二进制特征向量,表达了原子符号、度、电荷、芳香度及相邻氢的数量结构中的信息。3.根据权利要求2所述基于粗细粒度分类的药代动力学和毒性预测方法,其特征在于:步骤2.3)中,采用两层图卷积网络层GCN进行提取;其中,图卷积网络层GCN采用半监督节点分类设计,其通过节点之间的信息传播来更新节点的表示;多层图卷积网络层GCN的层级传播规则如下:
其中,为添加自连接的无向图的邻接矩阵,A∈R
N
×
N
是表示E的邻接矩阵,I
N
是单位矩阵,σ(
·
)为激活函数,和W
(l)
...

【专利技术属性】
技术研发人员:施建宇杜冰雪杨光秦媛李嘉宁胡朋振朱蓓
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1