知识图谱的表示学习方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32676897 阅读:11 留言:0更新日期:2022-03-17 11:33
本公开涉及一种知识图谱的表示学习方法、装置、存储介质及电子设备,其中方法包括:根据知识图谱获取多个事实元组;分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型;确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。本方案采用了多元组来表示知识图谱中的一个事实,即事实元组,每个事实元组是根据该知识图谱中的一个关系和与该关系连接的实体构造得到的,从而解决了基于传统三元组无法准确、完整表达医疗领域的复杂知识的问题。复杂知识的问题。复杂知识的问题。

【技术实现步骤摘要】
知识图谱的表示学习方法、装置、存储介质及电子设备


[0001]本公开涉及机器学习
,具体地,涉及一种知识图谱的表示学习方法、装置、存储介质及电子设备。

技术介绍

[0002]知识图谱是由节点和边组成的一种基于图数据结构的知识建模与表示方式,旨在描述客观世界中的各种概念、实体,以及它们之间的关联关系。知识图谱的数据层主要是由一系列的事实组成,并以事实为单位进行存储。知识图谱的表示学习,则是指学习知识图谱中的实体、关系和属性的向量表示形式的技术,其对于知识获取和下游应用具有重要的作用。
[0003]相关技术中,通常采用(实体1,关系,实体2)或者(实体,属性,属性值)这样的三元组来表达事实,并基于这样的三元组来学习实体和关系的向量表示,但这种方法对于具有复杂关系表示的知识图谱而言,难以准确、完整地表示出各个实体在复杂关系中的真实语义。例如,医疗领域的行业知识有着自身复杂程度高的领域特点,现有通用领域的表示学习技术很难用简单的传统三元组准确、完整地表达医学知识的复杂性。

技术实现思路

[0004]本公开的目的是提供一种知识图谱的表示学习方法、装置、存储介质及电子设备,以解决传统三元组难以准确、完整地表达复杂知识的问题。
[0005]第一方面,本公开提供一种知识图谱的表示学习方法,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述方法包括:
[0006]根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
[0007]分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
[0008]基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
[0009]确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
[0010]可选的,所述分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量,包括:
[0011]确定所述多个事实元组的最大元数δ,和所述多个事实元组中的关系数量γ;
[0012]根据所述最大元数δ将每个所述实体编码为多个δ位的独热向量,所述多个独热向量用于表示所述实体是否出现在对应的事实元组中,且当所述实体在任一事实元组中出现时,对应的所述独热向量中目标位置的值被唯一编码为有效值,所述目标位置与所述实体在所述事实元组中出现的位置对应;
[0013]根据所述关系数量γ将每个所述关系编码为一个γ位的独热向量,其中,每个关系对应的所述独热向量中被唯一编码为有效值的位置各不相同。
[0014]可选的,所述基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,包括:
[0015]基于每个所述关系和每个所述实体对应的独热向量迭代训练所述向量表示模型,直到满足预设训练停止条件时结束训练;其中,所述向量表示模型包括位置卷积层和特征提取网络,每次迭代训练过程包括:
[0016]通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量;
[0017]通过特征提取网络将每个所述关系的独热向量和每个所述实体的位置卷积向量映射到相同的向量空间中,得到每个所述关系和每个所述实体的语义特征向量;
[0018]针对每个事实元组,根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数;
[0019]根据每个所述事实元组的真实标签和所述估计参数,计算所述向量表示模型的损失值,并根据所述损失值更新所述向量表示模型的参数。
[0020]可选的,所述通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量,包括:
[0021]针对每个实体,通过δ个一维位置卷积核对所述实体对应的每个独热向量进行卷积运算,得到与每个所述独热向量对应的δ个原始卷积向量,并将所述δ个原始卷积向量融合为一个目标卷积向量;其中,每个一维位置卷积核分别用于提取所述独热向量中不同位置的特征;
[0022]将所述实体对应的多个目标卷积向量进行首尾拼接,得到所述实体的位置卷积向量。
[0023]可选的,所述多个事实元组包括多个正样本事实元组和多个负样本事实元组;所述根据所述知识图谱获取多个事实元组,包括:
[0024]根据所述知识图谱获得多个正样本事实元组,每个所述正样本事实元组是由所述知识图谱中的一个关系和与所述关系连接的实体构成;
[0025]从所述多个正样本事实元组中选择多个候选事实元组,随机替换每个所述候选事实元组中的至少一个实体,得到多个负样本事实元组。
[0026]可选的,所述根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数,包括:
[0027]将所述事实元组中包括的关系和各实体的语义特征向量进行按位相乘,得到一个目标向量;
[0028]将所述目标向量中的值进行求和,将求和结果作为所述事实元组对应的所述估计参数。
[0029]可选的,计算所述损失值所采用的损失函数为:
[0030][0031][0032]其中,m为所述多个事实元组的数量,y
i
为第i个事实元组的真实标签,且当第i个事实元组为正样本事实元组时,y
i
为1,当第i个事实元组为负样本事实元组时,y
i
为0,h(x
i
)为对第i个事实元组的估计参数进行Sigmoid函数运算后得到的值。
[0033]第二方面,本公开提供一种知识图谱的表示学习装置,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述装置包括:
[0034]事实元组获取模块,用于根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
[0035]独热编码模块,用于分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
[0036]模型训练模块,用于基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
[0037]向量获得模块,用于确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
[0038]第三方面,本公开提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
[0039]第四方面,本公开提供一种电子设备,包括:
[0040]存储器,其上存储有计算机程序;
[0041]处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的表示学习方法,其特征在于,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述方法包括:根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。2.根据权利要求1所述的方法,其特征在于,所述分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量,包括:确定所述多个事实元组的最大元数δ,和所述多个事实元组中的关系数量γ;根据所述最大元数δ将每个所述实体编码为多个δ位的独热向量,所述多个独热向量用于表示所述实体是否出现在对应的事实元组中,且当所述实体在任一事实元组中出现时,对应的所述独热向量中目标位置的值被唯一编码为有效值,所述目标位置与所述实体在所述事实元组中出现的位置对应;根据所述关系数量γ将每个所述关系编码为一个γ位的独热向量,其中,每个关系对应的所述独热向量中被唯一编码为有效值的位置各不相同。3.根据权利要求2所述的方法,其特征在于,所述基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,包括:基于每个所述关系和每个所述实体对应的独热向量迭代训练所述向量表示模型,直到满足预设训练停止条件时结束训练;其中,所述向量表示模型包括位置卷积层和特征提取网络,每次迭代训练过程包括:通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量;通过特征提取网络将每个所述关系的独热向量和每个所述实体的位置卷积向量映射到相同的向量空间中,得到每个所述关系和每个所述实体的语义特征向量;针对每个事实元组,根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数;根据每个所述事实元组的真实标签和所述估计参数,计算所述向量表示模型的损失值,并根据所述损失值更新所述向量表示模型的参数。4.根据权利要求3所述的方法,其特征在于,所述通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量,包括:针对每个实体,通过δ个一维位置卷积核对所述实体对应的每个独热向量进行卷积运算,得到与每个所述独热向量对应的δ个原始卷积向量,并将所述δ个原始卷积向量融合为一个目标卷积向量;其中,每个一维位置卷积...

【专利技术属性】
技术研发人员:王伟光蔡巍张霞
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1