一种基于多任务学习的异质图卷积网络的药物重定位模型制造技术

技术编号:35760885 阅读:14 留言:0更新日期:2022-11-26 19:10
本发明专利技术涉及药物研发的技术领域,特别是涉及一种基于多任务学习的异质图卷积网络的药物重定位模型,其能够从不同生物实验的数据集中获得药物和疾病的多角度的特征,可以提高药物重定位的性能,解决药物

【技术实现步骤摘要】
一种基于多任务学习的异质图卷积网络的药物重定位模型


[0001]本专利技术涉及药物研发的
,特别是涉及一种基于多任务学习的异质图卷积网络的药物重定位模型。

技术介绍

[0002]传统的药物研发过程通常需要十年以上的时间,每种新药得到获批并应用于临床的平均成本超过10

20亿美元,而且,新药发现的成功率不到10%,这远达不到治疗疾病的需求,更不用说治疗罕见和复杂疾病的药物。药物重定位,通常预测药物和疾病的关联来为现有药物寻找新的适应症,与传统药物研发相比,药物重定位可以降低药物研发的成本和时间,提高药物发现的成功率。因此,药物重定位是一个具有应用前景、可行的、重要研究意义的课题。
[0003]一般来说,现有的重定位计算方法大致可以分为三类:一是基于传统机器学习的方法,将药物重定位作为一个分类问题。从已知的关联数据中提取或学习药物和疾病的特征,接着应用经典的分类算法进行分类,如:SVT,RLS,RF等;二是基于矩阵分解的方法,将药物

疾病关联矩阵分解为低维的药物特征矩阵和疾病特征矩阵,并推断潜在的药物

疾病关联;三是基于网络的方法,将与药物,疾病相关的数据及关联建模为网络,并从网络中学习到药物,疾病的表示以计算潜在的关联,如GCN,GAT等。
[0004]尽管已经提出了许多用于药物重定位任务的方法,但是现有方法存在以下共同缺点,首先药物

疾病关联数据库中的阳性样本非常稀疏,这对训练有效的药物重定位模型是一个挑战,使得药物重定位的性能较低,而且这些方法,并没有使用特定的过程来处理稀疏问题;其次,尽管存在药物相关的多源数据集,但是这些数据并未在现有方法中得到利用,来自不同生物实验的数据集是从不同的角度描述了药物和疾病的特征。例如,药物可以利用蛋白质/miRNAs作为靶点来调节蛋白质/miRNAs的表达水平,而蛋白质/miRNAs的不适当表达水平可能与某些疾病密切相关。因此针对药物重定位任务,这些方法的性能比较低,其原因是,不能很好的处理药物

疾病关联数据库中的阳性样本非常稀疏的问题,而且也不能从不同生物实验的数据集中获得药物和疾病的多角度的特征。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种可以提高药物重定位的性能,解决预测药物

疾病关联任务中阳性样本的稀疏性问题,能够从不同生物实验的数据集中获得药物和疾病的多角度的特征的基于多任务学习的异质图卷积网络的药物重定位模型。
[0006]本专利技术的一种基于多任务学习的异质图卷积网络的药物重定位模型,包括以下模块:
[0007]输入模块:通过结合药物、miRNA、蛋白质和疾病之间的复杂关联来构建异质信息网络(HIN);
[0008]图表示学习模块:通过堆叠带有残差连接和层级注意力机制的图卷积网络层来学
习HIN中节点的表示;
[0009]多任务预测模块:利用四个预测任务,包括两个与药物相关的预测任务,即药物

miRNA关联预测,药物

蛋白质关联预测;两个与疾病相关的预测任务,即miRNA

疾病关联预测,蛋白质

疾病关联预测,来作为辅助任务,来帮助药物

疾病关联预测任务的学习,以获得更高质量的节点的表示。
[0010]本专利技术的一种基于多任务学习的异质图卷积网络的药物重定位模型,其中构建异质信息网络模块:结合药物、疾病相关的多源数据集,构建一个异质信息网络G=(V,E)。
[0011]V表示节点的集合:分别包括药物集V
d
,miRNA集V
m
,蛋白质集V
p
,疾病集V
e
,即V={V
d
,V
m
,V
p
,V
e
},药物,miRNA,蛋白质,疾病的数量分别是n
d
,n
m
,n
p
,n
e

[0012]E表示节点之间关联,HIN中包含九种类型的边集E,边集E中由以下关联组成:药物

疾病关联药物

miRNA关联药物

蛋白质关联miRNA

疾病关联蛋白质

疾病关联药物

药物相互作用miRNA

miRNA相似性蛋白质

蛋白质相互作用以及疾病

疾病相似性使用独热编码表示异质图HIN的初始特征,如下:
[0013][0014]其中,分别是药物、miRNA、蛋白质、疾病的初始特征,S
d
、S
m
、S
p
、S
e
分别表示n
d
、n
m
、n
p
、n
e
阶单位矩阵,通过初始化HIN的特征并利用图表示学习模块来捕获复杂的语义关联,以获得更好的药物和疾病的表示。
[0015]本专利技术的一种基于多任务学习的异质图卷积网络的药物重定位模型,所述图表示学习模块由聚合邻居节点信息、残差连接和层注意力机制三部分组成。
[0016]聚合邻居节点信息:HIN中不同类型的边集表示节点之间不同的语义,根据HIN的拓扑结构,给定药物节点d
i
,有四种与d
i
相邻的边集,包括药物

药物关联、药物

miRNA关联、药物

疾病关联和药物

蛋白质关联,用T表示与药物节点相邻的所有类型的边集,在HIN中给定类型t∈T,药物节点d
i
的邻居集合用表示,中各节点特征的聚合表示t类型中的邻居对药物d
i
的贡献,通过各类型边获得邻居节点的信息,得到药物d
i
的信息聚合表示。其中每一层GCN对每个节点的信息聚合形式化如下:
[0017][0018]其中是药物节点d
i
与邻居节点的关联类型为t,在第l层的参数矩阵,b
l
是非线性激活函数ReLU在第l层的偏置,使用对边缘类型为t的邻居集进行平均,用以解决不同类型邻居集之间存在的数量不平衡问题;
[0019]残差连接:在每个GCN层中使用残差连接机制,经过形式化后,第l层表示如下:
[0020][0021]其中,是经过第l层GCN信息聚合后的节点表示,H
(1

1)
为第l

l层GCN最后得到的节点表示,换句话说,在经过GCN对各节点信息聚合后得到的表示,并不直接作为下一层GCN的输入;
[0022]层注意力机制:在图表示模块部分,考虑到不同GCN层获得的表示包含HIN本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的异质图卷积网络的药物重定位模型,其特征在于,包括以下模块:输入模块:通过结合药物、miRNA、蛋白质和疾病之间的复杂关联来构建异质信息网络(HIN);图表示学习模块:通过堆叠带有残差连接和层级注意力机制的图卷积网络层来学习HIN中节点的表示;多任务预测模块:利用四个预测任务,包括两个与药物相关的预测任务,即药物

miRNA关联预测,药物

蛋白质关联预测;两个与疾病相关的预测任务,即miRNA

疾病关联预测,蛋白质

疾病关联预测,来作为辅助任务,设置药物

疾病关联预测为目标任务。即通过辅助任务来帮助学习高质量的药物和疾病的表示。2.如权利要求1所述的一种基于多任务学习的异质图卷积网络的药物重定位模型,其特征在于,构建异构信息网络:结合药物、疾病相关的多源数据集,构建一个异质信息网络G=(V,E)。V表示节点的集合:分别包括药物集V
d
,miRNA集V
m
,蛋白质集V
p
,疾病集V
e
,即V={V
d
,V
m
,V
p
,V
e
},药物,miRNA,蛋白质,疾病的数量分别是n
d
,n
m
,n
p
,n
e
;E表示节点之间关联,HIN中包含九种类型的边集E,边集E中由以下关联组成:药物

疾病关联药物

miRNA关联药物

蛋白质关联miRNA

疾病关联蛋白质

疾病关联药物

药物相互作用miRNA

miRNA相似性蛋白质

蛋白质相互作用以及疾病

疾病相似性使用独热编码表示异质图HIN的初始特征,如下:其中,分别是药物、miRNA、蛋白质、疾病的初始特征,S
d
、S
m
、S
p
、S
e
分别表示n
d
、n
m
、n
p
、n
e
阶单位矩阵,通过初始化HIN的特征并利用图表示学习模块来捕获复杂的语义关联,以获得更好的药物和疾病的表示。3.如权利要求2所述的一种基于多任务学习的异质图卷积网络的药物重定位模型,其特征在于,所述图表示学习模块由聚合邻居节点信息、残差连接和层注意力机制三部分组成。聚合邻居节点信息:HIN中不同类型的边集表示节点之间不同的语义,根据HIN的拓扑结构,给定药物节点d
i
,有四种与d
i
相邻的边集,包括药物

药物关联、药物

miRNA关联、药物

疾病关联和药物

蛋白质关联,用T表示与药物节点相邻的所有类型的边集,在HIN中给定类型t∈T,药物节点d
i
的邻居集合用表示,中各节点特征的聚合表示t类型中的邻居对药物d
i
的贡献,通过各类型边获得邻居节点的信息,得到药物d
i
的信息聚合表示。其中每一层GCN对每个节点的信息聚合形式化如下:
其中是药物节点d
i
与邻居节点的关联类型为t,在第1层的参数矩阵,b
l
是非线性激活函数ReLU在...

【专利技术属性】
技术研发人员:赵卫中叶胜威
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1