当前位置: 首页 > 专利查询>浙江大学专利>正文

一种融合图结构和文本信息的自适应知识图谱表示学习方法技术

技术编号:28035589 阅读:13 留言:0更新日期:2021-04-09 23:17
本发明专利技术公开了一种融合图结构和文本信息的自适应知识图谱表示学习方法,包括:(1)采样目标三元组头、尾实体的邻居三元组;(2)计算每个目标三元组和其头、尾实体的邻居三元组的语义表示;(3)计算目标三元组头、尾实体的结构表示;(4)将目标三元组自身的语义表示与其头、尾实体的结构表示拼接,输入自适应分类层,计算分类结果和分类损失;(5)基于梯度下降的优化算法对上述模块进行优化,直至损失值收敛,得到目标三元组自身的语义表示与其头、尾实体的结构表示的最终拼接结果。本发明专利技术能够同时捕捉知识图谱的语义表示和图结构表示,自适应地将语义和结构信息融合并且充分利用,在信息缺乏的知识图谱上表现出更好的鲁棒性。

【技术实现步骤摘要】
一种融合图结构和文本信息的自适应知识图谱表示学习方法
本专利技术属于知识图谱表示
,具体涉及一种融合图结构和文本信息的自适应知识图谱表示学习方法。
技术介绍
知识图谱(KG),例如FreeBase,YAGO和WordNet等被逐渐构建起来,它们为许多重要的AI任务,例如语义搜索,推荐和问答等提供了有效的基础。知识图谱通常是一个多关系图,主要包含实体、关系和三元组,每一个三元组以实体作为节点和关系作为边缘,表示一条知识。三元组以(头部实体,关系,尾部实体)(简称为(h,r,t))的形式表示,例如(乔布斯,创建,苹果公司)即表示了“乔布斯创建了苹果公司”这样一条知识。知识图谱中往往包含了大量信息,我们认为其中两种较为重要的信息是结构信息和文本信息。结构信息指实体通过关系与其他实体存在的某种联系,一个实体的结构信息往往可通过其邻居三元组体现;文本信息指知识图谱中实体和关系的文本描述的语义信息,通常由实体和关系的名称、实体和关系的额外文字说明等体现。当前大多数知识图谱还远远不够完整,因此激发了知识图补全的任务,该任务旨在评估知识图中不存在的三元组的合理性。目前有许多研究工作致力于知识图的完成与补全,一种常见的方法称为知识图嵌入,该方法将三元组中的实体和关系映射到低维稠密的向量,并使用这些向量评估三元组的合理性。当前主流的知识图嵌入的生成方式一般有两种,一种是通过知识图结构信息生成,例如翻译模型TransE、双线性模型DistMult、旋转模型RotatE等,这种方式简单有效被广泛利用,但是它们缺乏对知识图文本信息的利用,尤其对于结构信息缺乏(如过于稀疏、或无连通性)的知识图谱没有很好的表示能力,例如地理知识图谱,它们通常非常稀疏,三元组之间相互分散且缺乏良好的连通性。第二种方法是通过知识图文本信息生成,例如基于预训练语言模型的KG-Bert,这种方式充分利用了知识图的文本信息,在文本信息丰富的知识图谱上能达到较高精度,但是因为缺乏对结构信息的利用,该方法在文本信息缺乏(如命名不规范、缺少文本描述)的知识图上效果不佳,如实际应用中临时生成的知识图谱,它们往往存在命名不规范(机器码命名、随机命名),缺乏额外文字描述的情况,从中获取不到有利的文本信息。由于实际场景中很多知识图都是信息缺乏的,即并不是同时存在丰富的结构信息与文本信息,而目前主流的知识图谱表示方法往往只能适用于其中一种情况,缺乏鲁棒性和通用价值。
技术实现思路
本专利技术提供了一种融合图结构和文本信息的自适应知识图谱表示学习方法,在缺乏图结构信息或缺乏文本信息的知识图上都具有较强鲁棒性,能达到更好的补全和预测效果。一种融合图结构和文本信息的自适应知识图谱表示学习方法,包括以下步骤:(1)对每个目标三元组,分别采样其头实体和尾实体的邻居三元组;(2)对每个三元组和其头、尾实体的邻居三元组,通过语义表示模块SRM分别计算语义表示;(3)将目标三元组头、尾实体的邻居三元组的语义表示输入结构提取模块SEM,计算目标三元组头、尾实体的结构表示;(4)将目标三元组自身的语义表示与其头、尾实体的结构表示拼接,拼接后输入自适应分类层,用输出的概率分布与真实标签计算损失;(5)基于梯度下降的优化算法对上述模块进行优化,直至损失值收敛,得到目标三元组自身的语义表示与其头、尾实体的结构表示的最终拼接结果。本专利技术中,为每一个三元组学习它的语义表示和结构表示,都是低维稠密的向量,最后通过语义表示和结构表示之间的自适应融合计算完成隐式的推理,可用于知识图谱补全等任务。该方法在知识图谱结构信息丰富而文本信息欠缺时,会自动更倾向于使用知识图结构信息;反之,在知识图谱文本信息丰富而结构信息欠缺时更倾向于使用文本信息。步骤(1)的具体过程如下:令G表示一个知识图谱,E表示该知识图谱中的实体集合,R表示该知识图谱中的关系集合;采样目标三元组x=(h,r,t)头、尾实体的邻居三元组,邻居三元组包括两部分:头实体邻居三元组和尾实体邻居三元组,分别记为其中,ri,rj∈R,ti,hj∈E,a是可设置的超参数,表示采样的头、尾实体的邻居三元组的数目。步骤(2)中,所述的语义表示模块SRM采用预训练语言模型bert,并删除bert模型最后的分类层;语义表示模块的输入是由三元组的头实体、关系、尾实体的文本描述按序组成的一个句子序列,实体和关系的文本描述之间用分隔符[SEP]间隔,序列首部增加输出标识[OUT];语义表示模块的输出是该模块最后一隐藏层中[OUT]位对应的输出向量,该输出向量为对应输入三元组的语义表示。目标三元组x的语义表示用公式表示为:qx=SRM(x)目标三元组x的a个头、尾实体的邻居三元组的语义表示分别表示为对每个训练样本来说,会得到1个自身的语义表示,a个头实体邻居三元组的语义表示,以及a个尾实体邻居三元组的语义表示。从实体的邻居三元组中提取结构信息的结果应该与输入的邻居三元组语义表示的排列顺序无关。步骤(3)中,所述的结构提取模块SEM使用两层的set-transformer。set-transformer是transformer的改进版本,相比于原始的transformer有更佳的性能,同时它接受顺序无关的输入。计算目标三元组头、尾实体的结构表示的具体过程为:将步骤(2)中获得的头实体邻居三元组语义表示排成一个序列,再输入结构提取模块SEM,最终结构提取模块的输出作为头实体h的结构表示:将目标三元组尾实体t的a个邻居三元组的语义表示输入结构提取模块SEM,计算得到的尾实体t的结构表示:步骤(4)中,所述的自适应分类层是一个权重为的全连接层;其中,H1是语义表示模块SRM的隐层大小,H2是结构提取模块SEM的隐藏层大小。步骤(4)的具体过程为:将步骤(2)中计算的目标三元组自身的语义表示qx,和步骤(3)中计算的其头、尾实体的结构表示拼接:将输入自适应分类层,目标三元组x=(h,r,t)的输出概率为:其中,β∈R2为随机偏移,且最后,用和真实的三元组标签y计算交叉熵损失:其中,当目标三元组x=(h,r,t)为正样本时,y=1,否则y=0。步骤(5)中,用基于梯度下降的优化算法对上述各模块进行优化,直至损失值收敛。模型的最终输出是目标三元组自身的语义表示与其头、尾实体的结构表示的拼接结果现有大多数知识图谱表示的方法不能很好地同时兼容结构信息或语义信息;而本专利技术作为融合图结构和文本信息的自适应知识图谱表示学习方法,具体优势体现如下:(1)本专利技术能够同时捕捉知识图的语义表示和结构表示,并自适应地融合与充分利用知识图谱的语义和图结构信息。(2)在知识图谱文本信息丰富,但缺乏结构信息时,该方法能自动偏向于利用文本信息;在知识图谱结构信息丰富,但缺乏文本信息时,该方法能自动偏向于利用本文档来自技高网
...

【技术保护点】
1.一种融合图结构和文本信息的自适应知识图谱表示学习方法,其特征在于,包括以下步骤:/n(1)对每个目标三元组,分别采样其头实体和尾实体的邻居三元组;/n(2)对每个三元组和其头、尾实体的邻居三元组,通过语义表示模块SRM分别计算语义表示;/n(3)将目标三元组头、尾实体的邻居三元组的语义表示输入结构提取模块SEM,计算目标三元组头、尾实体的结构表示;/n(4)将目标三元组自身的语义表示与其头、尾实体的结构表示拼接,拼接后输入自适应分类层,用输出的概率分布与真实标签计算损失;/n(5)基于梯度下降的优化算法对上述模块进行优化,直至损失值收敛,得到目标三元组自身的语义表示与其头、尾实体的结构表示的最终拼接结果。/n

【技术特征摘要】
1.一种融合图结构和文本信息的自适应知识图谱表示学习方法,其特征在于,包括以下步骤:
(1)对每个目标三元组,分别采样其头实体和尾实体的邻居三元组;
(2)对每个三元组和其头、尾实体的邻居三元组,通过语义表示模块SRM分别计算语义表示;
(3)将目标三元组头、尾实体的邻居三元组的语义表示输入结构提取模块SEM,计算目标三元组头、尾实体的结构表示;
(4)将目标三元组自身的语义表示与其头、尾实体的结构表示拼接,拼接后输入自适应分类层,用输出的概率分布与真实标签计算损失;
(5)基于梯度下降的优化算法对上述模块进行优化,直至损失值收敛,得到目标三元组自身的语义表示与其头、尾实体的结构表示的最终拼接结果。


2.根据权利要求1所述的融合图结构和文本信息的自适应知识图谱表示学习方法,其特征在于,步骤(1)的具体过程如下:
令G表示一个知识图谱,E表示该知识图谱中的实体集合,R表示该知识图谱中的关系集合;采样目标三元组x=(h,r,t)头、尾实体的邻居三元组,邻居三元组包括两部分:头实体邻居三元组和尾实体邻居三元组,分别记为
其中,ri,rj∈R,ti,hj∈E,a是可设置的超参数,表示采样的头、尾实体的邻居三元组的数目。


3.根据权利要求1所述的融合图结构和文本信息的自适应知识图谱表示学习方法,其特征在于,步骤(2)中,所述的语义表示模块SRM采用预训练语言模型bert,并删除bert模型最后的分类层;
语义表示模块的输入是由三元组的头实体、关系、尾实体的文本描述按序组成的一个句子序列,实体和关系的文本描述之间用分隔符[SEP]间隔,序列首部增加输出标识[OUT];
语义表示模块的输出是该模块最后一隐藏层中[OUT]位对应的输出向量,该输出向量为对应输入三元组的语义表示。


4.根据权利要求3所述的融合图结构和文本信息的自适应知识图谱表示学习方法,其特征在于,目标三元组x的语义表示用公...

【专利技术属性】
技术研发人员:陈华钧朱渝珊
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1