一种基于多视角推理的弱监督知识图谱问答方法技术

技术编号：30654170 阅读：19 留言：0更新日期：2021-11-04 01:19

本发明专利技术公开了一种基于多视角推理的弱监督知识图谱问答方法，主要通过解决知识图谱问答在弱监督条件下的长路径推理和伪路径问题。首先利用自然语言问题中涉及的知识图谱实体获取知识图谱子图。然后，利用知识图谱表示学习算法将知识图谱三元组映射为向量表示，同时在预训练语言模型的基础上将问题和子图中的关系映射为向量表示。接着，计算问题的向量表示与关系向量表示的语义匹配度和问题向量表示在知识图谱三元组中的结构匹配度。最后，通过监督学习的方法先优化与问题语义相似的关系，再优化与问题语义最相近的关系，得到一种在弱监督条件下的知识图谱问答核心路径推理模型。模型。模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多视角推理的弱监督知识图谱问答方法

[0001]本专利技术涉及一种基于多视角推理的弱监督知识图谱问答方法，属于自然语言处理

技术介绍

[0002]随着DBpedia、Freebase和WikiData等知识图谱的发展，它们的规模变得非常庞大。没有专业知识的普通人想要从大规模的知识图谱中查找知识是很困难的事情，于是人们越来越重视寻找有效便捷的方法来获取这些宝贵的知识资源。知识图谱问答又称知识库问答（KnowledgeBaseQuestionAnswering，KBQA），它以自然语言作为查询语言，是一种非常人性化的解决方案，使得它成为了近年来的研究热点。尽管有大量的研究，但KBQA仍然是具有挑战的任务，即使在研究得很好的领域，如英语中的开放领域KBQA，现有的方法也很难与人类对问题的理解相匹配。KBQA存在的挑战包括：1）表达差异，即自然语言问题的表达形式可能与KB中表达形式完全不同，导致自然语言问题到KB的映射变得困难；2）歧义，同一个词汇可能代表不同的实体，如“苹果”可能是水果，也可能是手机品牌。此外，由于训练数据的标注成本昂贵并且可能涉及专业知识来构造查询形式，尤其是在一些非英语的低资源语言上和一些专业的领域如法律或生物医学，它们给数据标注带来额外的成本。所以最近一些工作考虑在只给定问题和最终答案的这种弱监督情况下进行问答，因为只获取最终答案相比需要构造查询形式来说是更简单的。
[0003] KBQA中有两个关键的子任务，分别是实体链接（EntityLinking，EL）和路径推理（Pa...

【技术保护点】

【技术特征摘要】
1.一种基于多视角推理的弱监督知识图谱问答方法，其特征在于，该方法包含以下步骤：步骤1）将自然语言问题链接到知识图谱中的实体，并通过实体查询知识图谱获取问题对应的子图；步骤2）通过知识图谱表示学习算法TransE将知识图谱中的三元组映射到向量空间，学习每个实体和关系和向量表示；步骤3）通过预训练模型BERT获取自然语言问题的句子向量表示和步骤1）中子图的每个关系向量表示；步骤4）通过步骤3）中的句子向量表示获取部分语义向量；步骤5）通过计算步骤4）给出的部分语义向量与步骤3）给出的关系向量的相似度得分，以及部分语义向量在步骤2）中学习到的知识图谱表示学习算法的得分；步骤6）利用步骤5）给出的相似度得分和表示学习算法得分计算在步骤1）中子图里的每条推理路径的联合推理概率；步骤7）在大量数据上，通过mini
‑
batch梯度下降的方式来训练初始模型，利用核采样算法选择步骤6）给出的概率和大于阈值的推理路径集合来计算损失分数更新参数，获得经过第一阶段优化的核心路径推理模型；步骤8）在大量数据上，通过mini
‑
batch梯度下降的方式来训练通过步骤7）给出的模型，通过步骤6）的模型概率计算公式，计算得到步骤7）核采样路径中概率最大的路径，利用该路径来计算损失分数更新参数，获得第二阶段优化的核心路径推理模型。2.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤1）中将自然语言问题利用实体链接算法链接到知识图谱中的实体，然后利用实体在知识图谱中检索，获取T跳以内的子图。3.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤2）中，通过知识图谱表示学习算法TransE将知识图谱中的实体和关系映射到低维的向量空间中，获得每个实体和关系和向量表示，对于知识图谱中的正确三元组（h，l，t）和负采样的错误三元组（h
’
，l，t
’
），通过代价函数在每个mini
‑
batch更新的实体h、t和关系l的向量：d()表示距离计算函数。4.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤3）通过预训练模型BERT获取自然语言问题q的句子向量表示E
q
和步骤1）中子图的每个关系r的向量表示E
r
，自然语言问题q和关系r都由多个单词组成，E
q
和E
r
为单词向量之和取平均。5.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤4）对步骤3）中的句子向量表示E
q
获取部分语义向量C
t
，部分语义向量C
t
表示第t步推理关注的问题语义信息，它由一个记忆单元决定，部分语义向量C
t
的计算公式为：
其中W
z
、W
r
和W为随机初始化的权重矩阵，sigmo...

【专利技术属性】
技术研发人员：胡楠，漆桂林，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人