一种结合文本双曲分段知识嵌入多重知识图谱的问答方法技术

技术编号:31316152 阅读:18 留言:0更新日期:2021-12-12 23:53
一种结合文本双曲分段知识嵌入多重知识图谱的问答方法,利用双曲分段嵌入模型,实现知识图谱中实体和关系的初始化,所述实体包括头实体和尾实体;针对自然语言提出的问题,利用RoBERTa模型进行问题嵌入,并构建异构图,融合与问题相关的知识图谱与文本;利用文本中的语义信息丰富知识图谱中实体嵌入的表示,并将文本作为超边,补充不完整知识图谱中的关系;将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组,并采用评分函数进行打分,实现知识图谱问答。本发明专利技术可大大提升知识图谱问答的质量,获得更加精准的答案。获得更加精准的答案。获得更加精准的答案。

【技术实现步骤摘要】
一种结合文本双曲分段知识嵌入多重知识图谱的问答方法


[0001]本专利技术属于人工智能
,涉及知识图谱问答,特别涉及一种结合文本双曲分段知识嵌入多重知识图谱的问答方法。

技术介绍

[0002]近年来,大规模知识图谱的发展为回答开放域问题提供了丰富的资源。基于知识图谱来回答自然语言问题已经成为的一种热门趋势。
[0003]大多数早期的知识图谱问答采用的是传统的基于语义分析的方法。该类方法使用字典、规则和机器学习,将自然语言问句映射成一种语义表示或逻辑表达式或查询图。基于语义解析的方法通常使用分类模型进行关系的预测,但由于知识图谱中包含数十万种关系,训练集难以覆盖如此庞大规模的关系,使得基于语义解析的方法在知识图谱问答上受到限制。再后来出现了基于信息检索的方法,该类方法首先根据问题得到若干个候选实体,从知识图谱中抽取与候选实体相连的关系作为候选查询路径,再使用文本匹配模型,选择出与问题相似度最高的候选查询路径,到知识图谱中检索答案。此方法需自定义构建特征且对复杂问题处理效果不好。
[0004]最近,越来越多的基于神经网络的方法已经被证明是有效的知识图谱问答任务。这些方法只需要简单地查询知识图谱,不需要额外的语法知识和词典,并且隐式地完成了候选答案的搜索和排序功能。然而怎样真正的理解问题并且缩小自然语言和知识图谱的结构化语义之间的差距仍然是非常具有挑战性的。
[0005]另外,基于神经网络的知识图谱问答中通常需要通过知识嵌入模型来学习三元组中实体和关系的表示,虽然近年来对知识图谱嵌入问题进行了大量的研究,但现有的研究并没有在模型复杂性(参数的数量)和模型表达性(语义信息捕获性能)之间做出适当的权衡,同时,也不容易保持知识图谱的多重层次结构。

技术实现思路

[0006]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种结合文本双曲分段知识嵌入多重知识图谱的问答方法。
[0007]为了实现上述目的,本专利技术采用的技术方案是:
[0008]一种结合文本双曲分段知识嵌入多重知识图谱的问答方法,包括如下步骤:
[0009]步骤1,利用双曲分段嵌入模型,实现知识图谱中实体和关系的初始化,所述实体包括头实体和尾实体;
[0010]步骤2,针对自然语言提出的问题,利用RoBERTa模型进行问题嵌入,并构建异构图,融合与问题相关的知识图谱与文本;
[0011]步骤3,利用文本中的语义信息丰富知识图谱中实体嵌入的表示,并将文本作为超边,补充不完整知识图谱中的关系;
[0012]步骤4,将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组,并采用评分
函数进行打分,实现知识图谱问答。
[0013]进一步地,所述步骤1中,先训练双曲几何嵌入模型,再训练双曲分段嵌入模型,所述双曲分段嵌入模型是将双曲实体或双曲关系嵌入分割成不同片段,并对其进行多线性点积。
[0014]进一步地,所述双曲几何嵌入模型的训练中,采用具有负曲率c的m维庞加莱球模型建模知识图谱,在庞加莱球模型上点X与点Y之间的距离d(X,Y)用双曲空间距离公式表示为:
[0015][0016]其中,arccos h(.)表示反双曲余弦函数,‖.‖表示L2范数;
[0017]知识图谱用三元组(h,r,t)表示,其中h代表头实体,t代表尾实体,r代表头实体和尾实体之间的关系,(h,r,t)∈V
×
R
×
V,V,R均表示实体数据集,对头实体h运用Rotation与Reflection参数进行旋转和映射,公式表示如下:
[0018][0019]其中,Rot表示旋转,Ref表示映射;P代表庞加莱求模型;代表庞加莱球模型双曲实体嵌入的旋转值,代表庞加莱球模型双曲关系嵌入的映射值;Θ
r

r
均表示关系专用参数;表示双曲头实体嵌入;
[0020]然后利用双曲注意力机制将和结合并应用于双曲变换公式,表示如下:
[0021][0022]其中,Q(p,r)表示查询嵌入,即双曲头实体嵌入的旋转和反射逻辑编码模式与双曲关系嵌入进行逻辑运算的值,Att代表双曲注意力机制;代表双曲关系嵌入,通过双曲嵌入模型获取,r∈R;a
r
表示有关关系的双曲注意力机制的载体;是一个逻辑运算符号,它表示先进行异或运算,再取其补集;
[0023]最后通过双曲空间距离公式将查询嵌入与双曲尾实体嵌入进行比较,得到评分函数s(p,r,t),如下式所示:
[0024][0025]其中,表示双曲尾实体嵌入,表示Q(p,r)与之间距离的补集;b
h
,b
t
表示在评分函数中作为边界值的实体偏差。
[0026]进一步地,所述双曲分段嵌入模型的训练中,是将双曲头实体嵌入和双曲尾实体嵌入的双曲关系嵌入划分奇偶段:首先,假设双曲关系嵌入为d维,将双曲关系嵌入的d维嵌入均匀划分为k段;其次,将双曲关系嵌入分为奇数段和偶数段来保持关系的对称性和反对称性质;最后,使用w
x,y
来确定候选答案所落的位置,当x为偶数时,w
xy
=y,当x为奇数时,w
x,y
=(x+y)%k。
[0027]进一步地,所述步骤2中,首先,使用RoBERTa模型将问题嵌入到多维向量中;其次,
通过若干完全连接的线性层,并通过ReLU激活,最终将问题投射到固定的维向量空间中实现问题嵌入;然后,使用两个并行管道即知识图谱和文档,检索问题子图;最后将检索到的实体和文档与实体链接L结合起来,生成一个完全连接的图,即所述的异构图。
[0028]进一步地,所述步骤3中,以查询编码、文本编码和知识图谱编码为输入,在结合文本推理的知识图谱中,输入部分利用文本信息,通过丰富实体嵌入和添加超边来改进不完整知识库,并将图卷积网络(Graph Convolution Network,GCN)和异构图卷积网络(Heterogeneous Graph Convolution Network,HGCN)应用于推理。
[0029]进一步地,在结合文本推理的知识图谱中,运用GCN来丰富知识图谱中的实体,并采用HGCN对超图格式的文本进行编码,将纯文本视为连接文本之间实体的超边。
[0030]进一步地,所述步骤4中,将结合文本的实体,问题与候选答案嵌入再次运用双曲分段嵌入模型进行训练,该模型通过最小化分数的sigmoid函数与目标标签之间的二值交叉熵损失函数来学习,其中目标标签为1的是正确的回答,目标标签为0的是不正确的回答。训练完成后,模型根据所有可能的实体/问题对,对所有可能的候选答案运用步骤1中的分段评分函数进行打分,选择分数最高的候选答案为最终答案。
[0031]与现有技术相比,本专利技术利用双曲分段知识嵌入模型,在不牺牲模型复杂性的基础上,充分发挥模型的表达性,从而捕获更多语义信息,同时,保持知识图谱的多层层次结构。并加入文本做为额外信息来缩短自然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,包括如下步骤:步骤1,利用双曲分段嵌入模型,实现知识图谱中实体和关系的初始化,所述实体包括头实体和尾实体;步骤2,针对自然语言提出的问题,利用RoBERTa模型进行问题嵌入,并构建异构图,融合与问题相关的知识图谱与文本;步骤3,利用文本中的语义信息丰富知识图谱中实体嵌入的表示,并将文本作为超边,补充不完整知识图谱中的关系;步骤4,将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组,并采用评分函数进行打分,实现知识图谱问答。2.根据权利要求1所述结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,所述步骤1中,先训练双曲几何嵌入模型,再训练双曲分段嵌入模型,所述双曲分段嵌入模型是将双曲实体或双曲关系嵌入分割成不同片段,并对其进行多线性点积。3.根据权利要求2所述结合文本双曲分段知识嵌入多重知识图谱的问答方法,其特征在于,所述双曲几何嵌入模型的训练中,采用具有负曲率c的m维庞加莱球模型建模知识图谱,在庞加莱球模型上点X与点Y之间的距离d(X,Y)用双曲空间距离公式表示为:其中,arccosh(.)表示反双曲余弦函数,‖.‖表示L2范数;知识图谱用三元组(h,r,t)表示,其中h代表头实体,t代表尾实体,r代表头实体和尾实体之间的关系,(h,r,t)∈V
×
R
×
V,V,R均表示实体数据集,对头实体h运用Rotation与Reflection参数进行旋转和映射,公式表示如下:其中,Rot表示旋转,Ref表示映射;P代表庞加莱求模型;代表庞加莱球模型双曲实体嵌入的旋转值,代表庞加莱球模型双曲关系嵌入的映射值;Θ
r

r
均表示关系专用参数;表示双曲头实体嵌入;然后利用双曲注意力机制将和结合并应用于双曲变换公式,表示如下:其中,Q(p,r)表示查询嵌入,即双曲头实体嵌入的旋转和反射逻辑编码模式与双曲关系嵌入进行逻辑运算的值,Att代表双曲注意力机制;代表双曲关系嵌入,通过双曲嵌入模型获取,r∈R;a
r
表示有关关系的双曲注意力机制的载体;是一个逻辑运算符号,它表示先进行异或运算,再取其补集;最后通过双曲空间距离公式将查询嵌入与双曲尾实体嵌入进行比较,得到评分函数s(p,r,t),如下式所示:
其中,表示双曲尾实体嵌入,表示Q(p,r)与之间距离的补集;b<...

【专利技术属性】
技术研发人员:苏依拉吕苏艳梁衍锋崔少东仁庆道尔吉吉亚图
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1