一种面向复杂知识库问答的查询图生成方法和系统技术方案

技术编号:37058020 阅读:15 留言:0更新日期:2023-03-29 19:34
本发明专利技术涉及一种面向复杂知识库问答的查询图生成方法和系统。该方法包括:按照目的问题和历史问题之间的语义相似度,从历史案例中筛选出排名靠前的历史问题;将筛选出的历史问题对应的标准查询图中的关系组成案例候选关系集合;基于案例候选关系集合,采用检索式语义解析方法生成查询图;根据知识库查询语句的语法规则将查询图转换为可执行的查询语句,在知识库上执行查询从而得到目的问题的答案。本发明专利技术提出了一种利用历史案例显著减小推理过程中的检索空间的方法,对检索得到的候选关系进行预筛选,能够在对自然语言问题回答的性能影响处于可接受范围内的情况下显著提高问题回答的效率。回答的效率。回答的效率。

【技术实现步骤摘要】
一种面向复杂知识库问答的查询图生成方法和系统


[0001]本专利技术属于信息技术、自然语言处理
,具体涉及一种面向复杂知识库问答的查询图生成方法和系统。

技术介绍

[0002]知识库问答在线上即时问答场景中发挥了重要的作用。近年来,复杂知识库问答(即基于知识库回答复杂问题)得到了广泛的研究。现有的复杂知识库问答主要可以分为两类解决方案:
[0003]一类是基于信息检索的方法,侧重于知识库上的推理。首先在知识库中检索以主题词的对应实体为中心的相邻结点和边,并提取相关信息作为知识库子图,将子图中的每个结点作为候选答案、每个边作为候选推理路径,根据机器学习或者深度学习提取问题和候选答案的特征向量,对其相似度打分筛选出目标答案。
[0004]第二类是基于语义解析的方法,侧重于解析自然语言问题中的语义关系并转化为知识库上的查询语句。基于语义解析的方法通过人工规则和深度语言模型解析问题中表层和深层的语义语法关系,转换为一种中介逻辑表达式,将中介逻辑表达式中的元素(实体、关系等)与知识库对齐,即可转化为能在知识库上执行的查询语句。在解析自然语言问题中的语义关系时,这类方法又可以根据解析过程是否需要在知识库上推理分为检索式语义解析方法和生成式语义解析方法。检索式语义解析方法生成中介逻辑表达式的过程需要在知识库上逐步的推理来更新中介逻辑表达式,对当前实体结点遍历知识库中该结点的邻域来获得候选关系,通过语义匹配打分模型选择得分最高的关系扩展中介逻辑表达式。生成式语义解析方法从知识库或历史案例中预先筛选出问题相关的实体和关系等信息,输入预训练语言模型直接生成目的中介逻辑表达式。
[0005]目前可解释性强的语义解析模型(即检索式语义解析方法)在每一步推理时需要检索知识库中当前结点一跳邻域内的所有信息,检索空间极大,获得相关性最高的关系的检索开销极高,导致问答效率低下。目前相关技术推理过程仅仅考虑了知识库中的信息,没有考虑历史案例的作用。

技术实现思路

[0006]本专利技术针对上述问题,提供一种面向复杂知识库问答的查询图生成方法和系统。本专利技术提出一种利用历史案例显著减小推理过程中的检索空间的方法,对检索得到的候选关系进行预筛选,旨在对自然语言问题回答的性能影响处于可接受范围内的情况下显著提高问题回答的效率。
[0007]本专利技术采用的技术方案如下:
[0008]一种面向复杂知识库问答的查询图生成方法,包括以下步骤:
[0009]按照目的问题和历史问题之间的语义相似度,从历史案例中筛选出排名靠前的历史问题;
[0010]将筛选出的历史问题对应的标准查询图中的关系组成案例候选关系集合;
[0011]基于案例候选关系集合,采用检索式语义解析方法生成查询图。
[0012]进一步地,采用同一数据集的同分布数据构建所述历史案例。
[0013]进一步地,所述从历史案例中筛选出排名靠前的历史问题,是从历史案例中检索出与目的问题的语义相似度得分最高的K个历史问题。
[0014]进一步地,将问题输入BERT模型得到的[CLS]输出向量来表征自然语言问题的句子表示,则所述目的问题和历史问题之间的语义相似度通过其句子表示的向量内积得到。
[0015]进一步地,设R
q
为所述案例候选关系集合,为QGG方法中每次更新查询图时遍历当前实体结点i在知识库上邻域内的所有关系组成的集合,则所述基于案例候选关系集合,采用检索式语义解析方法生成查询图,包括:仅选取R
q
和的交集中得分最高的关系更新查询图;若R
q
和中不包含任何共同的关系路径,即交集为空,则进行例外处理。
[0016]进一步地,所述例外处理是按照原来QGG的处理方式选取候选路径。
[0017]一种面向复杂知识库问答的查询图生成系统,其包括:
[0018]历史案例筛选模块,用于按照目的问题和历史问题之间的语义相似度,从历史案例中筛选出排名靠前的历史问题;
[0019]查询图生成模块,用于将筛选出的历史问题对应的标准查询图中的关系组成案例候选关系集合,基于案例候选关系集合,采用检索式语义解析方法生成查询图。
[0020]一种复杂知识库问答方法,其利用本专利技术的上述方法生成的查询图,根据知识库查询语句的语法规则将查询图转换为可执行的查询语句,在知识库上执行查询从而得到目的问题的答案。
[0021]本专利技术的有益效果和优点如下:
[0022]1)本专利技术提出一个将历史案例与检索式语义解析方法结合来进行复杂知识库问答的模型,弥补了目前主流检索式语义解析方法对历史案例利用的空缺。
[0023]2)本专利技术是通过逐步的推理将自然语言问题解析成中介逻辑表达式的检索式语义解析方法。与现有技术不同的是,现有技术在每步推理的时候仅考虑了知识库中的信息,需要检索整个知识库中当前结点的所有一跳邻域,而本专利技术利用历史案例筛选模块创新地将历史信息与推理过程结合,约束推理的检索空间。实验证明本专利技术的技术方法的效率显著提高,检索空间显著减小。
附图说明
[0024]图1是基于案例的查询图生成框架。
具体实施方式
[0025]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步详细说明。
[0026]本专利技术提出了一种复杂知识库问答模型,即基于案例的查询图生成(CQGG),该模型不仅利用知识库中的信息对自然语言问题进行语义解析,而且利用了历史案例约束语义解析中的推理过程,省去了大量推理过程中无效的语义评分计算。
[0027]本专利技术采用查询图作为中介逻辑表达式。CQGG主要包含两个模块:历史案例筛选模块和查询图生成模块。历史案例筛选模块先从提前构建好的历史案例中依据当前回答的问题和历史问题之间的相似度筛选出排名靠前的历史问题,并从历史案例中提取这些问题对应的标准查询图的关系信息作为预筛选关系集合。查询图生成模块主体框架沿用检索式语义解析方法QGG(Yunshi Lan and Jing Jiang.Query Graph Generation for Answering Multi

hop Complex Questions from Knowledge Bases.ACL,2020.)的查询图生成框架,但是QGG每次更新查询图时需要检索当前查询图末端结点在知识库中对应结点的整个一跳邻域内的关系,并利用语义匹配模型进行相关性计算,选择相关性最高的关系更新查询图,相比于QGG,CQGG的查询图生成模块为了实现提高生成效率的目的,仅检索预筛选关系集合与知识库邻域的交集,大幅减小了检索空间。
[0028]本专利技术的模型如图1所示。本模型的整体框架主要包含两个部分:1)历史案例筛选模块;2)查询图生成模块。相应的,本专利技术的方法可以拆解为两个主要操作:历史案例筛选、查询图生成。
[0029]1.历史案例筛选
[0030]这一模块目的是从历史案例中筛选出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向复杂知识库问答的查询图生成方法,其特征在于,包括以下步骤:按照目的问题和历史问题之间的语义相似度,从历史案例中筛选出排名靠前的历史问题;将筛选出的历史问题对应的标准查询图中的关系组成案例候选关系集合;基于案例候选关系集合,采用检索式语义解析方法生成查询图。2.根据权利要求1所述的方法,其特征在于,采用同一数据集的同分布数据构建所述历史案例。3.根据权利要求1所述的方法,其特征在于,所述从历史案例中筛选出排名靠前的历史问题,是从历史案例中检索出与目的问题的语义相似度得分最高的K个历史问题。4.根据权利要求1所述的方法,其特征在于,将问题输入BERT模型得到的[CLS]输出向量来表征自然语言问题的句子表示,则所述目的问题和历史问题之间的语义相似度通过其句子表示的向量内积得到。5.根据权利要求1所述的方法,其特征在于,设R
q
为所述案例候选关系集合,为QGG方法中每次更新查询图时遍历当前实体结点i在知识库上邻域内的所有关系组成的集合,则所述基于案例候选关系集合,采用检索式语义解析方法生成查询图,包括:仅选取R
q
和的交集中得分最高的关系更新查询图;若R...

【专利技术属性】
技术研发人员:曹伟杰戴健徐骏李进波贺琪博顾博渊陶天祎周云峰缪叶汤舒阳阙云飞张雨帆刘正宵
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1