一种用于制造技术

技术编号:39511236 阅读:5 留言:0更新日期:2023-11-25 18:47
本发明专利技术涉及生物医学技术领域,公开了一种用于

【技术实现步骤摘要】
一种用于DTI预测的端到端神经网络模型


[0001]本专利技术涉及生物医学
,尤其涉及一种用于
DTI
预测的端到端神经网络模型


技术介绍

[0002]神经网络是由大量的

简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统,神经网络具有大规模并行

分布式存储和处理

自组织

自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的

不精确和模糊的信息处理问题
。。
[0003]为获得针对给定蛋白质有效且安全的药物,药理学家必须测试数千种化合物

然而,药物

靶标相互作用的实验测量既耗时又耗费资源

由于其高效和低成本,用于
DTI
预测的深度学习方法受到极大的关注

如何充分结合药物和靶标的宏观
(
如药物与靶标之间的关系
)
和微观
(
如药物的图结构和蛋白质的序列
)
信息来预测药物靶标之间的相互作用是不可忽视的挑战

图神经网络
(GNN)
已广泛用于药物靶标相互作用
(DTI)
预测,总的来说,已经开发出许多基于浅层
GNN

DTI
预测新模型,并在各种数据集上显示出良好的性能

[0004]然而,现有的浅层
GNN
不足以捕捉化合物的全局结构,无法揭示分子中每个原子之间的全局关系

对于药物靶标相互作用预测领域的注意力机制研究方法,通常具有复杂的模型和大量参数

在数据量较小的情况下,可能会出现欠拟合,也没有考虑交互特征和初始特征的有机结合,因此,提出一种用于
DTI
预测的端到端神经网络模型


技术实现思路

[0005](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种用于
DTI
预测的端到端神经网络模型,利用参数共享的双向交叉注意力机制从低维特征向量表示中学习药物

靶标相互作用表示,提取药物和蛋白质之间的相互作用特征,提高药物和蛋白质的特征表示能力,充分建立药物与靶标之间的关联,并利用
HSIC
度量药物和靶标特征向量之间的非线性依赖关系,以此指导模型损失函数的优化,提高模型预测的鲁棒性

[0006](二)技术方案本专利技术采用以下技术方案实现:一种用于
DTI
预测的端到端神经网络模型,通过
RDkit
将药物
SMILES
序列信息预处理为具有节点特征的图表示,包括药物

靶标数据集构建

图表示和鲁棒的交互预测;其中,所述节点特征是指每个原子的特征;所述药物

靶标数据集构建是利用网络嵌入方法提取基于药物

靶标网络的嵌入向量作为补充视图,从宏观角度表示药物和靶标;所述图表示以数据集中已知的

存在相互作用的药物靶标为基础构建药物靶标相互作用网络,基于药物结构特征构建药物

药物相似性网络

基于靶标序列特征构建靶标

靶标相似性网络,然后使用网络嵌入方法学习网络中节点的低维潜在表示;所述鲁棒的交互预测是基于参数共享的交叉注意力模块来计算药物和蛋白质之间的交叉注
意力以捕获它们之间的相互关系,并采用
HSIC
量化两者特征向量之间的依赖性,作为神经网络交叉熵损失函数的补充,指导深度学习模型的优化

[0007]优选的,所述药物

靶标数据集是从
DrugBank
药物信息资源数据库构建实验数据集,对数据进行处理后,得到包含
6645
种药物
、4254
个靶标和
17511
种已知药物

靶标相互作用的
DrugBank
数据集,负样本是从未知的药物

靶标对中随机抽取的,并与正样本保持相同的数量

[0008]优选的,所述图表示通过
RDkit
将药物
SMILES
序列信息预处理为具有节点特征和邻接矩阵的图表示结构,对蛋白质
FASTA
序列进行预处理,然后构建词汇表将氨基酸序列转换成数值编码,随后构建多尺度
GNN
与多尺度
CNN
神经网络模型提取药物和靶标特征,随后整合以上特征,构建一个多视角的药物靶标相互作用预测模型

[0009]优选的,对于蛋白质
FASTA
序列信息,建立一个词汇表,将每个碱基字符映射成一个整数,然后将药物和蛋白质的数字编码送到嵌入层以输出嵌入特征向量,并将它们分别作为多尺度
GNN
模块和多尺度
CNN
模块的输入,以生成表示特征,利用网络嵌入方法提取基于药物

靶标网络的嵌入向量作为补充视图

[0010]优选的,所述鲁棒的交互预测从宏观角度表示药物和靶标,基于参数共享的交叉注意力机制将这些特征作为输入并将它们混合以提取药物和蛋白质之间的交互特征,然后利用
HSIC
量化药物和蛋白质特征向量之间的依赖性以指导模型损失函数的优化,最后,连接已获得的药物

蛋白质对的组合特征,并送入多层感知机以预测药物蛋白质之间是否存在相互作用,通过反复迭代,不断更新模型参数和鲁棒性指标,以得到更加鲁棒的药物靶标相互作用预测模型

[0011]优选的,所述多尺度
GNN
模块提取药物特征:包括三个多尺度块,其中每两个多尺度块之间通过一个过渡层连接,其中:所述多尺度块:,其中
H
是是图卷积层,是可学习权重矩阵;过渡层:旨在整合来自先前多尺度块的多尺度特征并减少特征图的通道数;

[0012]优选的,所述多尺度
CNN
模块提取靶标特征为一个具有三个分支的网络模型,每个分支由不同感受野的卷积层组成,以提取不同尺度的蛋白质特征,并堆叠多个卷积层来增加感受野,三个分支的感受野分别为
3、5

7。
[0013]优选的,所述基于药物

药物相似性

靶标

靶标相似性

药物靶标作用异构网络,使用网络嵌入法提取药物和靶标关联和结构的信息,比如
DeepWalk、node2vec、LINE...

【技术保护点】

【技术特征摘要】
1.
一种用于
DTI
预测的端到端神经网络模型,通过
RDkit
将药物
SMILES
序列信息预处理为具有节点特征的图表示,其特征在于,包括:药物

靶标数据集构建

图表示和鲁棒的交互预测;其中,所述节点特征是指每个原子的特征;所述药物

靶标数据集构建是利用网络嵌入方法提取基于药物

靶标网络的嵌入向量作为补充视图,从宏观角度表示药物和靶标;所述图表示以数据集中已知的

存在相互作用的药物靶标为基础构建药物靶标相互作用网络,基于药物结构特征构建药物

药物相似性网络

基于靶标序列特征构建靶标

靶标相似性网络,然后使用网络嵌入方法学习网络中节点的低维潜在表示;所述鲁棒的交互预测是基于参数共享的交叉注意力模块来计算药物和蛋白质之间的交叉注意力以捕获它们之间的相互关系,并采用
HSIC
量化两者特征向量之间的依赖性,作为神经网络交叉熵损失函数的补充,指导深度学习模型的优化
。2.
如权利要求1所述的一种用于
DTI
预测的端到端神经网络模型,其特征在于,所述药物

靶标数据集是从
DrugBank
药物信息资源数据库构建实验数据集,对数据进行处理后,得到包含
6645
种药物
、4254
个靶标和
17511
种已知药物

靶标相互作用的
DrugBank
数据集,负样本是从未知的药物

靶标对中随机抽取的,并与正样本保持相同的数量
。3.
如权利要求2所述的一种用于
DTI
预测的端到端神经网络模型,其特征在于,所述图表示通过
RDkit
将药物
SMILES
序列信息预处理为具有节点特征和邻接矩阵的图表示结构,对蛋白质
FASTA
序列进行预处理,然后构建词汇表将氨基酸序列转换成数值编码,随后构建多尺度
GNN
与多尺度
CNN
神经网络模型提取药物和靶标特征,随后整合以上特征,构建一个多视角的药物靶标相互作用预测模型
。4.
如权利要求3所述的一种用于
DTI
预测的端到端神经网络模型,其特征在于,对于蛋白质
FASTA
序列信息,建立一个词汇表,将每个碱基字符映射成一个整数,然后将药物和蛋白质的数字编码送到嵌入层以输出嵌入特征向量,并将它们分别作为多尺度
GNN
模块和多尺度
CNN
模块的输入,以生成表示特征,利用网络嵌入方法提取基于药物

靶标网络的嵌入向量作为补充视图
。5.
如权利要求4所述的一种用于
DTI
预测的端到端神经网络模型,其特征在于,所述鲁棒的交互...

【专利技术属性】
技术研发人员:杨飞孙宸远何云飞孟丽高埂张志强陈润泽
申请(专利权)人:合肥千手医疗科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1