基于图神经网络的医学知识图谱节点重要性评估方法技术

技术编号:33773574 阅读:27 留言:0更新日期:2022-06-12 14:26
基于图神经网络的医学知识图谱节点重要性评估方法属于电子信息领域。为了克服同时结合医学知识图谱中医学数据、复杂语义关系以及图结构信息这三方面信息对实体节点进行重要性评估存在的困难,并针对现有医学知识图谱节点重要性评估方法中存在的未考虑图谱拓扑结构与边的类型以及未包含可学习参数等问题,本发明专利技术引入了图神经网络(Graph Neural Network),构建了基于图神经网络的医学知识图谱节点重要性评估算法,实现了对医学知识图谱中实体节点重要性的准确定量评估。中实体节点重要性的准确定量评估。中实体节点重要性的准确定量评估。

【技术实现步骤摘要】
基于图神经网络的医学知识图谱节点重要性评估方法


[0001]本专利技术属于电子信息领域,是一种基于图神经网络、可应用于医学知识图谱节点重要性评估的方法。

技术介绍

[0002]知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。对医学领域而言,基于知识图谱强大的语义处理与开放互联能力,能够建立系统且完善的医学知识库,从而提供高效的医学知识检索等服务。目前,医学知识图谱已被应用于医学问答、医学知识搜索以及辅助诊疗系统等多个方面。医学知识图谱的节点重要性评估是知识图谱领域中一项至关重要且具有挑战性的任务,它可以使基于知识图谱的各类医学应用受益,但由于医学知识图谱中既存储了医学数据,又包含了各类医学数据之间的复杂语义关系以及知识图谱的图结构信息,因此很难在同时考虑医学知识图谱中的医学数据、语义关系以及图的拓扑结构三个方面的基础上对图谱中的实体节点做出准确的实体节点重要性评估。现有的医学知识图谱节点重要性评估算法通常是通过概率统计的方法,来对疾病的症状与检查等实体节点的重要程度进行量化,这类方法不能考虑医学知识图谱的拓扑结构与边的类型对实体节点重要性的影响。另一方面,这类算法不涉及基于真值优化的可学习参数。因此,现有的医学知识图谱节点重要性评估算法在拟合能力和预测准确度两个方面仍然有很大的提升与改进空间。
[0003]为了克服同时结合医学知识图谱中医学数据、复杂语义关系以及图结构信息这三方面信息对实体节点进行重要性评估存在的困难,并针对现有医学知识图谱节点重要性评估方法中存在的未考虑图谱拓扑结构与边的类型以及未包含可学习参数等问题,本专利技术引入了图神经网络(Graph Neural Network),构建了基于图神经网络的医学知识图谱节点重要性评估算法,实现了对医学知识图谱中实体节点重要性的准确定量评估。

技术实现思路

[0004]本文针对现有的医学知识图谱节点重要性评估方法不能同时考虑医学知识图谱的拓扑结构、边的类型以及未涉及可学习参数的问题,引入图神经网络GNN构造医学知识图谱节点重要性评估模型(GNN for Estimating Medical Node Importance,GMENI),实现对医学知识图谱中节点重要性的全面且准确的评估。本专利技术涉及如下4点:
[0005](1)引入了一个医学实体分数聚合模块,从而直接对医学知识图谱中相邻实体节点重要性之间的关系进行建模;
[0006](2)引入了医学谓词感知注意力机制,从而考虑了医学知识图谱中实体节点之间边的类型对节点重要性的影响;
[0007](3)引入中心性调整机制,从而考虑了实体节点的中心性对其实体节点重要性的影响;
[0008](4)构建2型糖尿病知识图谱,并对节点重要性评估模型进行了训练和验证;实验
证明,基于GNN的节点重要性评估模型可以准确地对节点重要性进行评估,准确率达94%,同时全面地考虑了知识图谱的拓扑结构、边的类型以及实体节点的中心性对其重要性的影响。
[0009]本专利技术核心算法
[0010](1)医学实体分数聚合
[0011]图(Graph,G)是由顶点的有穷非空集合和顶点之间边的集合组成的,图通常表示为:G(V,E),其中,V是图G中顶点的集合,e是图G中边的结合。对一个有n个节点,m条边的图G,在一个共有L层的图神经网络中,依照公式(1),图神经网络第l(l=1,

,L)层从第(l

1)层接收G的每个节点i(i=1,

,n)的特征向量并通过对节点i不同的邻域节点j(j=1,

,n)使用不同的权重来聚合节点i的邻域节点N(i)的特征向量:
[0012][0013]其中,Aggregate是一个由模型定义的聚合函数;Transform通过所有节点共享的第l层的参数对节点表征进行非线性转换。
[0014]在图神经网络的第l层得到邻域节点N(i)的特征向量后,依照公式(2),这些向量将与节点i的特征向量融合,从而被更新至
[0015][0016]其中,Combine是一个将聚合后节点i的邻域表征与节点i自身表征合并的函数。
[0017]由于更新后的特征向量将成为图神经网络第(+1)层的输入,因此通过L层的重复聚合过程可在学习节点的表征时捕获到该节点的L阶邻居节点。
[0018]本专利技术引入了分数聚合模块对医学知识图谱中相邻实体节点间的重要性关系建模。该分数聚合模块将公式(1)中实体节点j的隐藏嵌入表征替换为该节点的分数估计s
l
‑1(j),并使用公式(3)得分计算方法替换了公式(2)中的Combine操作:
[0019][0020]其中N(i)表示实体节点i的一阶邻域节点集,是分数聚合模块的第l层(l=1,

,L)中节点i和节点j重要性分数之间的可学习权重,该权重通过一个注意力机制进行训练,该注意力机制是由一个具有共享的谓词嵌入的图神经网络来计算的。分数聚合模块通过对节点i及其邻域节点的中间得分进行加权聚合,计算出实体节点i的聚合总得分s
l
(i)。
[0021]为了计算初始的节点估计值s0(i),初始分数运算网络会使用输入节点特征。在最简单的情况下,输入节点特征可以是代表每个医学实体节点的独热编码向量。更一般的情况下,输入节点特征是医学知识图谱中患者群体可能出现的临床症状与体征、并发症与病史等实体类的先验概率以及患者群体需要做的实验室检查与神经系统检查等各类检查的
检查概率。假设是实体节点i的输入特征向量,那么分数聚合模块将依照公式(4)计算节点i的初始重要性分数:
[0022][0023]其中,ScoringNetwork代表的初始分数运算网络是一个全连接神经网络。
[0024](2)医学谓词感知注意力机制
[0025]为了将医学知识图谱中的医学谓词类型即实体节点间边的类型对实体节点重要性分数的影响纳入到节点重要性评估的考虑范围内,本专利技术引入医学谓词感知注意力机制。该机制主要考虑两个因素,一是实体节点之间的谓词类型,因为不同的边的类型在节点分数传播的过程中可以发挥不同的作用。二是在计算节点i对邻域节点j的关注度a
i,j
时考虑了邻域节点j自身的重要性分数。
[0026]医学谓词感知注意力机制通过使用一个共享的谓词嵌入将医学知识图谱中的边纳入到分数聚合模块的注意力分数运算中,即每个医学谓词由一个预定长度的特征向量所表征,这个表征被分数聚合模块中所有的分数聚合层共享。此外,还在谓词感知注意力机制中引入了谓词嵌入学习,从而以灵活的方式将GMENI的预测性能提升至最高。
[0027]本专利技术中的医学谓词感知注意力机制由单层前馈神经网络实现,其可训练参数为一个权重向量在医学知识图谱中,两个节点之间可能有多个不同类型的边,本算法使用表示节点i和j之间的第m条边的谓词,用Φ(
·
)表示从谓词到其嵌入的映射。医学知识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图神经网络的医学知识图谱节点重要性评估方法,其特征在于,包括以下步骤:(1)医学实体分数聚合图(Graph,G)是由顶点的有穷非空集合和顶点之间边的集合组成的,图表示为:G(V,E),其中,V是图G中顶点的集合,E是图G中边的结合;对一个有n个节点,m条边的图G,在一个共有L层的图神经网络中,依照公式(1),图神经网络第l(l=1,...,L)层从第(l

1)层接收G的每个节点i(i=1,...,n)的特征向量并通过对节点i不同的邻域节点j(j=1,...,n)使用不同的权重来聚合节点i的邻域节点N(i)的特征向量:其中,Aggregate是一个由模型定义的聚合函数;Transform通过所有节点共享的第l层的参数对节点表征进行非线性转换;在图神经网络的第l层得到邻域节点N(i)的特征向量后,依照公式(2),这些向量将与节点i的特征向量融合,从而被更新至被更新至其中,Combine是一个将聚合后节点i的邻域表征与节点i自身表征合并的函数;由于更新后的特征向量将成为图神经网络第(l+1)层的输入,因此通过L层的重复聚合过程可在学习节点的表征时捕获到该节点的L阶邻居节点;引入了分数聚合模块对医学知识图谱中相邻实体节点间的重要性关系建模;该分数聚合模块将公式(1)中实体节点j的隐藏嵌入表征替换为该节点的分数估计s
l
‑1(j),并使用公式(3)得分计算方法替换了公式(2)中的Combine操作:其中N(i)表示实体节点i的一阶邻域节点集,是分数聚合模块的第l层(l=1,...,L)中节点i和节点j重要性分数之间的可学习权重,该权重通过一个注意力机制进行训练,该注意力机制是由一个具有共享的谓词嵌入的图神经网络来计算的;分数聚合模块通过对节点i及其邻域节点的中间得分进行加权聚合,计算出实体节点i的聚合总得分s
l
(i);为了计算初始的节点估计值s0(i),初始分数运算网络会使用输入节点特征;输入节点特征是医学知识图谱中患者群体可能出现的临床症状与体征、并发症与病史实体类的先验概率以及患者群体需要做各类检查的检查概率;假设是实体节点i的输入特征向量,那么分数聚合模块将依照公式(4)计算节点i的初始重要性分数:其中,ScoringNetwork代表的初始分数运算网络是一个全连接神经网络;(2)医学谓词感知注意力机制引入医学谓词感知注意力机制;该机制主要考虑两个因素,一是实体节点之间的谓词类型,因为不同的边的类型在节点分数传播的过程中可以发挥不同的作用;二是在计算节点i对邻域节点j的关注度a
i,j
时考虑了邻域节点j自身的重要性分数;
医学谓词感知注意力机制通过使用一个共享的谓词嵌入将医学知识图谱中的边...

【专利技术属性】
技术研发人员:何坚刘茗嵩陈建辉
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1