一种基于知识库问答的实体抽取方法及装置制造方法及图纸

技术编号:28500454 阅读:14 留言:0更新日期:2021-05-19 22:42
本申请提供一种基于知识库问答的实体抽取方法及装置,其中所述方法包括:获取目标问题语句并对所述目标问题语句进行实体识别,分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体;根据所述至少一个第一预测实体和至少一个第二预测实体,确定所述目标问题语句对应的至少一个目标预测实体;将每个所述目标预测实体通过实体链接的方式映射到所述知识库中,获取存储在知识库中的所述目标问题语句对应的至少一个候选实体。的所述目标问题语句对应的至少一个候选实体。的所述目标问题语句对应的至少一个候选实体。

【技术实现步骤摘要】
一种基于知识库问答的实体抽取方法及装置


[0001]本申请涉及自然语言处理
,特别涉及一种基于知识库问答的实体抽取方法及装置、计算设备及计算机可读存储介质。

技术介绍

[0002]知识库问答目前主要方法分为两大类。第一类是基于语义解析的方法,该类方法使用字典、规则和机器学习,直接从问题中解析出实体、关系和逻辑组合。基于语义解析的方法通常使用分类模型进行关系的预测,会面临着未登录关系的问题,即训练集中未出现的关系难以被预测出来。而且中文知识库中包含数十万种关系,导致训练集难以覆盖如此庞大规模的数量,从而使得基于语义解析的方法在中文知识知识库问答上受到限制。
[0003]第二类是基于信息检索的方法,该类方法需要根据问题得到若干个候选实体,在进行候选实体抽取的过程中,一般都是利用命名实体识别模型预测问题中出现的实体,但是使用命名实体识别模型识别出的实体可能并不是知识库中的实体,导致无法获取答案;或者是实体识别模型识别出的实体少了,导致不能找到正确的答案。并且在实体链接部分对所有的候选实体排序时,仅仅采用机器学习算法利用人工构造的特征对候选实体排序准确率较低,导致整个知识库问答系统准确率降低。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种基于知识库问答的实体抽取方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种基于知识库问答的实体抽取方法,包括:
[0006]获取目标问题语句并对所述目标问题语句进行实体识别,分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体;
[0007]根据所述至少一个第一预测实体和至少一个第二预测实体,确定所述目标问题语句对应的至少一个目标预测实体;
[0008]将每个所述目标预测实体通过实体链接的方式映射到所述知识库中,获取存储在知识库中的所述目标问题语句对应的至少一个候选实体。
[0009]根据本说明书实施例的第二方面,提供了一种基于知识库问答的实体抽取装置,包括:
[0010]实体识别模块,被配置为获取目标问题语句并对所述目标问题语句进行实体识别,分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体;
[0011]实体处理模块,被配置为根据所述至少一个第一预测实体和至少一个第二预测实体,确定所述目标问题语句对应的至少一个目标预测实体;
[0012]实体链接模块,被配置为将每个所述目标预测实体通过实体链接的方式映射到所述知识库中,获取存储在知识库中的所述目标问题语句对应的至少一个候选实体。
[0013]根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述基于知识库问答的实体抽取方法的步骤。
[0014]根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述基于知识库问答的实体抽取方法的步骤。
[0015]本申请在实体抽取部分,通过将实体识别模型与规则匹配方法结合,解决仅仅使用实体识别模型抽取不全或不准的情况。同时,通过在实体抽取部分将实体识别模型结果与规则匹配出的实体融合并过滤,一定程度上修正了实体识别模型的结果,并补充了实体识别模型没有识别出的实体。
[0016]本申请在实体链接部分,通过将机器学习算法LightGBM和深度学习算法BERT模型结合提高实体链接准确率,提升了候选实体排序效果,从而帮助提升了中文知识库问答总体的效果。
附图说明
[0017]图1是本申请实施例提供的计算设备的结构框图;
[0018]图2是本申请实施例提供的基于知识库问答的实体抽取方法的流程图;
[0019]图3是本申请实施例提供的基于知识库问答的实体抽取方法的流程图;
[0020]图4是本申请实施例提供的基于知识库问答的命名实体识别模型的示意图;
[0021]图5是本申请实施例提供的基于知识库问答的实体抽取方法的另一流程图;
[0022]图6是本申请实施例提供的基于知识库问答的实体抽取方法的另一流程图;
[0023]图7是本申请实施例提供的基于知识库问答的实体抽取方法的另一流程图;
[0024]图8是本申请实施例提供的基于知识库问答的实体抽取方法的另一流程图;
[0025]图9是本申请实施例提供的基于知识库问答的实体抽取方法的另一流程图;
[0026]图10是本申请实施例提供的基于知识库问答的实体抽取装置的结构示意图。
具体实施方式
[0027]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0028]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0029]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0030]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0031]知识库问答:知识库问答(Knowledge Base Question Answering,KBQA)即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。一般主要包括候选实体抽取、实体链接、关系抽取、答案生成几个步骤。举例如,问:张三的身高是多少?,知识库中有三元组(张三,身高,175cm),则目标答案为:175cm。
[0032]实体链接:问题中提到的实体与其知识库中相应的实体链接起来的任务,即找出知识库中与问题最匹配的实体。
[0033]BERT(Bidirectional Encoder Representations from Transformers)模型:一种双向注意力神经网络模型。BERT模型的目标是利用大规模无标注语料训练以获得文本的包含丰富语义信息的语义表示(Representation),然后将文本的语义表示在特定自然语言处理任务中作微调(Fine

Tuning),最终应用于该自然语言处理任务。
[0034]条件随机场(Conditional Random Field本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识库问答的实体抽取方法,其特征在于,包括:获取目标问题语句并对所述目标问题语句进行实体识别,分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体;根据所述至少一个第一预测实体和至少一个第二预测实体,确定所述目标问题语句对应的至少一个目标预测实体;将每个所述目标预测实体通过实体链接的方式映射到所述知识库中,获取存储在知识库中的所述目标问题语句对应的至少一个候选实体。2.根据权利要求1所述的方法,其特征在于,在获取存储在知识库中的所述目标问题语句对应的至少一个候选实体之后,还包括:获取每个所述候选实体对应的实体特征得分和相似度得分;根据每个所述候选实体对应的实体特征得分和相似度得分,对至少一个候选实体进行排序。3.根据权利要求1所述的方法,其特征在于,获取目标问题语句并对所述目标问题语句进行实体识别,分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体,包括:获取目标问题语句,通过预训练的命名实体识别模型确定所述目标问题语句中的至少一个第一预测实体;将所述目标问题语句与存储在知识库中所有的实体进行规则匹配,确定所述目标问题语句中的对应在所述知识库中的至少一个第二预测实体。4.根据权利要求1或3所述的方法,其特征在于,根据所述至少一个第一预测实体和至少一个第二预测实体,确定所述目标问题语句对应的至少一个目标预测实体,包括:将所述至少一个第一预测实体与所述至少一个第二预测实体进行实体融合,生成至少一个第三预测实体;对所述至少一个第三预测实体进行过滤,从所述至少一个第三预测实体中筛选出至少一个目标预测实体。5.根据权利要求4所述的方法,其特征在于,将所述至少一个第一预测实体与所述至少一个第二预测实体进行实体融合,生成至少一个第三预测实体,包括:在所述至少一个第二预测实体中存在与至少一个第一预测实体不相同的至少一个未预测实体的情况下,将所述未预测实体和第一预测实体共同作为第三预测实体;在任一所述第二预测实体的文本语料与任一所述第一预测实体的文本语料存在包容关系的情况下,将所述第二预测实体与第一预测实体进行融合从而作为第三预测实体;在任一所述第一预测实体的文本语料与任一所述第二预测实体的文本语料存在包容关系的情况下,判断所述第一预测实体是否为所述知识库中的实体;若是,则保留所述第一预测实体作为第三预测实体;若否,则保留所述第二预测实体作为第三预测实体。6.根据权利要求4所述的方法,其特征在于,对所述至少一个第三预测实体进行过滤,从所述至少一个第三预测实体中筛选出至少一个目标预测实体,包括:根据每个第三预测实体在所述知识库中对应的知识类别,将作为实体类别之外的其他数据类别对应的第三预测实体进行过滤。
7.根据权利要求2所述的方法,其特征在于,获取每个所述候选实体对应的实体特征得分和相似度得分,包括:根据每个所述候选实体对应的实体特征,通过调参算法确定每个所述候选实体对应的实体特征得分;根据预训练的相似度计算模型获取每个候选实体与所述目标问题语句对应的相似度得分。8.一种基于知识库问答的实体抽取装置,其特征在于,包括:实体识别模块,被配置为获取目标问题语句并对所述...

【专利技术属性】
技术研发人员:侯依宁李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1