一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法技术

技术编号:32805376 阅读:13 留言:0更新日期:2022-03-26 19:57
本发明专利技术公开了一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法,运用命名实体识别技术从用户的问题中获取命名实体,将命名实体运用实体链接技术链接到知识图谱中的主题实体,在知识图谱上查询与实体连接的3跳内关系,得到候选关系集合,根据问题从候选关系集合中挑选关系,对问题和一个关系通过网络编码后得到两个向量,计算两个向量的余弦相似度作为语义相似得分,选择得分最高的关系,在知识图谱上查询三元组<主题实体,得分最高关系,属性值>,返回三元组包含的属性值作为问题的答案。本发明专利技术采用目前先进的BERT预训练模型作为问题和关系文本的特征抽取器,增强了表示向量的表达能力,有助于提升关系选择效果。有助于提升关系选择效果。有助于提升关系选择效果。

【技术实现步骤摘要】
一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法


[0001]本专利技术涉及知识图谱领域,特别涉及一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法。

技术介绍

[0002]近年来,随着知识图谱技术的发展,基于知识图谱的智能问答成为自动问答中一项重要且充满挑战的研究工作。其核心是识别问题中的实体和属性,在知识图谱上检索实体属性对应的属性值,然后将它们作为答案返回给用户。由于知识图谱可以从结构化、半结构化信息和文本中自动构建,因此可大大减少答案配置的时间。
[0003]目前对基于知识图谱的问答系统的研究主要包括:

通过语法解析将问题转换为知识图谱相应的查询语句,实现基于知识图谱的问答。其优点在于不用配置答案且具有很高的回答准确率,但其缺点为他们通过规则将用户问题转换为图谱查询语句,因此问答效果又受限于规则的质量和数量。

通过深度神经网络模型进行属性选择来实现知识图谱的问答。其优点是,即使问题呈现多样性,深度神经网络也可以识别,且不会受到规则的限制,但其缺点是,在复杂问题的情况下模型的性能仍有待提高。
[0004]综上所述,由于语法解析方法的劣势与限制,目前的研究热点和主流方法都是基于深度神经网络模型进行关系选择的方法实现知识图谱问答。在采用目前主流的基于深度神经网络进行关系选择的方法实现基于知识图谱的问答中,目前算法模型在其工作流程中的关系排序选择这一环节的性能有待提高,关系选择的难点在于问题中关系描述可能与知识图谱中的关系名称存在较大的差异,从属性集合A中挑选一个当前问题涉及的关系称为关系选择。因此,如何设计一个模型有效地将问题与属性进行匹配是本专利技术的研究重点之一。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法,针对这一问题,设计了孪生注意力网络,网络借鉴了人脸识别中两张人脸相似度的计算的Siamese网络的思想,通过两个共享权重的BERT网络分别对问题q和关系p进行编码,在对问题q和关系p进行编码时,我们通过注意力机制将知识图谱嵌入向量进行融合,编码后得到问题和关系的语义向量S
q
和S
p
,随后该模型计算问题q与所有候选关系p∈A的余弦相似度评分,最后排序得到评分最高的关系,即为最终关系。
[0006]为实现上述目的,本专利技术采取的技术方案为:
[0007]一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法,包括以下步骤,
[0008]步骤一,主题实体获取:运用命名实体识别技术从用户的问题中获取命名实体,将命名实体运用实体链接技术链接到知识图谱中的主题实体;
[0009]步骤二,生成候选关系:在知识图谱上查询与实体连接的3跳内关系,
[0010]得到候选关系集合;
[0011]步骤三,关系排序选择:根据问题从候选关系集合中挑选关系,对问题和一个关系通过网络编码后得到两个向量,计算两个向量的余弦相似度作为语义相似得分,选择得分最高的关系;
[0012]步骤四,生成答案:在知识图谱上查询三元组<主题实体,得分最高关系,
[0013]属性值>,返回三元组包含的属性值作为问题的答案。
[0014]本专利技术的进一步改进在于,所述步骤三中在进行编码时,通过注意力机制将知识图谱嵌入向量中进行融合,编码后获得问题和关系的语义向量S
q
和S
p

[0015]本专利技术的进一步改进在于,所述步骤三关系选择模型的工作步骤如下,首先进行关系编码,获得关系的编码向量S
p
,然后进行问题编码,获得问题的编码向量S
q
,最后进行相似度评分计算排序得到评分最高的关系,为最终关系。
[0016]本专利技术的进一步改进在于,所述关系属性编码包括以下步骤,首先选择主题实体e的3跳内关系集合作为候选关系,p表示主题实体 e到候选关系的路径,然后将文本送入BERT模型得到关系p的文本语义特征,最后通过多头注意力机制将文本语义特征与图谱特征进行融合得到关系的编码向量。
[0017]本专利技术的进一步改进在于,所述问题编码包括以下步骤,问题文本BERT特征提取器得到问题中每个词的向量表示q1到q
m
,通过多头注意力机制将文本语义特征与图谱特征进行融合得到关系问题的编码向量。
[0018]本专利技术的进一步改进在于,所述相似度评分计算包括以下步骤,首先将编码后得到的问题的表示向量和关系的表示向量进行拼接并且输入到一个前馈网络,然后计算最终相似得分,其次该模型计算问题q与所有候选关系的相似度评分,最后排序得到评分最高的关系,即为最终关系。
[0019]本专利技术的进一步改进在于,在关系选择模型的训练阶段,采用合页损失函数,公式如下:
[0020][0021]其中,S(S
q
,S
p
),表示问题和正例关系、问题和负例关系分别计算的得分,超参数γ是一个正的实数值,表示正例和负例之间的间隔。
[0022]与现有技术相比,本专利技术针对在复杂问题情况下,基于知识图谱自动问答的关系选择子任务效果不佳的问题,提出了一种基于孪生 BERT注意力网络与融合图谱嵌入特征的关系选择方法,旨在提升关系选择子任务的效果,从而提升基于知识图谱自动问答的效果。一方面,采用目前先进的BERT预训练模型作为问题和关系文本的特征抽取器,BERT预训练模型利用自监督学习在大量无标注文本中学习到了语义信息;另一方面,将知识图谱运用图谱表示学习模型训练得到知识图谱中实体和关系的图嵌入表示向量,然后利用多头注意力机制将图嵌入表示向量与文本语义进行融合,得到问题与关系的语义知识表示向量,增强了表示向量的表达能力,有助于提升关系选择效果。
附图说明
[0023]为了更清楚地说明本专利技术的技术方案,下面将对本专利技术技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法的整体结构示意图。
[0025]图2为本专利技术一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法的知识图谱示例图。
[0026]图3为本专利技术一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法的基于知识图谱的自动问答流程。
具体实施方式
[0027]下面结合具体实施方式对本专利技术作进一步的说明,其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制,为了更好地说明本专利技术的具体实施方式,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸,对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的,基于本专利技术中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法,其特征在于,包括以下步骤,步骤一,主题实体获取:运用命名实体识别技术从用户的问题中获取命名实体,将命名实体运用实体链接技术链接到知识图谱中的主题实体;步骤二,生成候选关系:在知识图谱上查询与实体连接的3跳内关系,得到候选关系集合;步骤三,关系排序选择:根据问题从候选关系集合中挑选关系,对问题和一个关系通过网络编码后得到两个向量,计算两个向量的余弦相似度作为语义相似得分,选择得分最高的关系;步骤四,生成答案:在知识图谱上查询三元组<主题实体,得分最高关系,属性值>,返回三元组包含的属性值作为问题的答案。2.根据权利要求1所述的一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法,其特征在于:所述步骤三中在对两个向量进行编码时,通过注意力机制将知识图谱嵌入向量中进行融合,编码后获得问题和关系的语义向量S
q
和S
p
。3.根据权利要求1所述的一种基于BERT孪生注意力网络与融合图嵌入特征的关系选择方法,其特征在于:所述步骤三关系选择模型的工作步骤如下,首先进行关系编码,获得关系的编码向量S
p
,然后进行问题编码,获得问题的编码向量S
q
,最后进行相似度评分计算排序得到评分最高的关系,为最终关系。4.根据权利要求3所述的一种基于BERT孪...

【专利技术属性】
技术研发人员:马涛倪斌曾志贤汪姿如庄福振安竹林程坦徐勇军
申请(专利权)人:中科厦门数据智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1