一种基于知识库问答的实体抽取方法及装置制造方法及图纸

技术编号：28500454 阅读：14 留言：0更新日期：2021-05-19 22:42

本申请提供一种基于知识库问答的实体抽取方法及装置，其中所述方法包括：获取目标问题语句并对所述目标问题语句进行实体识别，分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体；根据所述至少一个第一预测实体和至少一个第二预测实体，确定所述目标问题语句对应的至少一个目标预测实体；将每个所述目标预测实体通过实体链接的方式映射到所述知识库中，获取存储在知识库中的所述目标问题语句对应的至少一个候选实体。的所述目标问题语句对应的至少一个候选实体。的所述目标问题语句对应的至少一个候选实体。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识库问答的实体抽取方法及装置

[0001]本申请涉及自然语言处理
，特别涉及一种基于知识库问答的实体抽取方法及装置、计算设备及计算机可读存储介质。

技术介绍

[0002]知识库问答目前主要方法分为两大类。第一类是基于语义解析的方法，该类方法使用字典、规则和机器学习，直接从问题中解析出实体、关系和逻辑组合。基于语义解析的方法通常使用分类模型进行关系的预测，会面临着未登录关系的问题，即训练集中未出现的关系难以被预测出来。而且中文知识库中包含数十万种关系，导致训练集难以覆盖如此庞大规模的数量，从而使得基于语义解析的方法在中文知识知识库问答上受到限制。
[0003]第二类是基于信息检索的方法，该类方法需要根据问题得到若干个候选实体，在进行候选实体抽取的过程中，一般都是利用命名实体识别模型预测问题中出现的实体，但是使用命名实体识别模型识别出的实体可能并不是知识库中的实体，导致无法获取答案；或者是实体识别模型识别出的实体少了，导致不能找到正确的答案。并且在实体链接部分对所有的候选实体排序时，仅仅采用机器学习算法利用人工构造的特征对候选实体排序准确率较低，导致整个知识库问答系统准确率降低。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种基于知识库问答的实体抽取方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面，提供了一种基于知识库问答的实体抽取方法，包括：
[0006]获取目标问题语句并对所述目标问...

【技术保护点】

【技术特征摘要】
1.一种基于知识库问答的实体抽取方法，其特征在于，包括：获取目标问题语句并对所述目标问题语句进行实体识别，分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体；根据所述至少一个第一预测实体和至少一个第二预测实体，确定所述目标问题语句对应的至少一个目标预测实体；将每个所述目标预测实体通过实体链接的方式映射到所述知识库中，获取存储在知识库中的所述目标问题语句对应的至少一个候选实体。2.根据权利要求1所述的方法，其特征在于，在获取存储在知识库中的所述目标问题语句对应的至少一个候选实体之后，还包括：获取每个所述候选实体对应的实体特征得分和相似度得分；根据每个所述候选实体对应的实体特征得分和相似度得分，对至少一个候选实体进行排序。3.根据权利要求1所述的方法，其特征在于，获取目标问题语句并对所述目标问题语句进行实体识别，分别确定所述目标问题语句中的至少一个第一预测实体和至少一个第二预测实体，包括：获取目标问题语句，通过预训练的命名实体识别模型确定所述目标问题语句中的至少一个第一预测实体；将所述目标问题语句与存储在知识库中所有的实体进行规则匹配，确定所述目标问题语句中的对应在所述知识库中的至少一个第二预测实体。4.根据权利要求1或3所述的方法，其特征在于，根据所述至少一个第一预测实体和至少一个第二预测实体，确定所述目标问题语句对应的至少一个目标预测实体，包括：将所述至少一个第一预测实体与所述至少一个第二预测实体进行实体融合，生成至少一个第三预测实体；对所述至少一个第三预测实体进行过滤，从所述至少一个第三预测实体中筛选出至少一个目标预测实体。5.根据权利要求4所述的方法，其特征在于，将所述至少一个第一预测实体与所述至少一个第二预测实体进行实体融合，生成至少一个第三预测实体，包括：在所述至少一个第二预测实体中存在与至少一个第一预测实体不相同的至少一个未预测实体的情况下，将所述未预测实体和第一预测实体共同作为第三预测实体；在任一所述第二预测实体的文本语料与任一所述第一预测实体的文本语料存在包容关系的情况下，将所述第二预测实体与第一预测实体进行融合从而作为第三预测实体；在任一所述第一预测实体的文本语料与任一所述第二预测实体的文本语料存在包容关系的情况下，判断所述第一预测实体是否为所述知识库中的实体；若是，则保留所述第一预测实体作为第三预测实体；若否，则保留所述第二预测实体作为第三预测实体。6.根据权利要求4所述的方法，其特征在于，对所述至少一个第三预测实体进行过滤，从所述至少一个第三预测实体中筛选出至少一个目标预测实体，包括：根据每个第三预测实体在所述知识库中对应的知识类别，将作为实体类别之外的其他数据类别对应的第三预测实体进行过滤。
7.根据权利要求2所述的方法，其特征在于，获取每个所述候选实体对应的实体特征得分和相似度得分，包括：根据每个所述候选实体对应的实体特征，通过调参算法确定每个所述候选实体对应的实体特征得分；根据预训练的相似度计算模型获取每个候选实体与所述目标问题语句对应的相似度得分。8.一种基于知识库问答的实体抽取装置，其特征在于，包括：实体识别模块，被配置为获取目标问题语句并对所述...

【专利技术属性】
技术研发人员：侯依宁，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人