基于知识库与实体聚焦的常识问答方法、装置及存储介质制造方法及图纸

技术编号:37775641 阅读:13 留言:0更新日期:2023-06-06 13:46
本发明专利技术实施例公开了一种基于知识库与实体聚焦的常识问答方法、装置及存储介质,其中方法包括:使用多种关键词提取算法,从问答语料中提取关键词,并根据各个关键词提取算法的提取结果进行加权计算得到关键实体名称;针对每个关键实体名称,向预设的知识库检索对应的释义,得到所有关键实体名称的释义信息;根据所有关键实体名称的释义信息,对问答语料进行重构,得到多个新问答语料;使用预先训练好的语言模型,计算重构后的每个问答语料的各个候选答案的概率,并将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分,选取概率得分最高的候选答案作为最终答案。案。案。

【技术实现步骤摘要】
基于知识库与实体聚焦的常识问答方法、装置及存储介质


[0001]本专利技术涉及常识问答
,并且更具体地,涉及一种基于知识库与实体聚焦的常识问答方法、装置及存储介质。

技术介绍

[0002]问答系统根据智能化程度的高低可以分为三类:基于规则的简单问答、基于FAQ的问答和基于知识学习的推理问答。第三类基于知识学习的推理问答智能化程度最高,能够利用机器学习、深度神经网络等算法从大量数据中学习到通用知识,然后完成不同场景的问答任务。这类问答系统通常又根据问答需求会细化成不同的问答任务:1)视觉问答,在问答过程中包含图片、视频等非结构化数据,并围绕图片和视频内容进行提问的问答;2)表格问答,以表格数据作为问题背景,针对表格内容进行提问的问答;3)常识问答,默认双方都具备一些基础常见知识,并且默认问题背后包含这些常识定义。
[0003]常识问答由于没有设定太多的知识限制、没有格式上的局限,因此在问答过程上十分自由,能给用户带来顺畅的问答体验,因此受到工业界的高度重视。但是目前的常识问答方法回复准确率不高,容易造成答非所问,降低用户问答体验。造成这种问题的主要原因是模型设计上不足,当前主流的常识问答方法通常仅利用大规模无监督语料进行预训练,然后将预训练后的语言模型当作语言概率模型使用,既通过计算语境、问题和答案选项拼接后的语言概率,选择问题答案。这种设计仅考虑了语句中词汇共现概率,如果问题或答案选项中出现了低频词、不常见词,则语句的共现概率极低,从而影响模型做出正确答复。
[0004]现有的常识问答方法通常使用图卷积网络来解决答案准确率不高的问题:1)先对背景描述、问题语句、选项语句进行关键词抽取、命名实体识别;2)对不同选项的实体构建实体关系图,并使用图卷积神经网络学习实体关系图上的关联信息;3)使用图卷积神经网络学习的通用表示去计算选项的得分,进而做出回复。这种方法的主要问题就是图卷积神经网络对实体关系图的大小十分敏感,如果背景描述、问题语句和选项语句长度较短,或者抽取到的实体数量较少,则很难构建出合理的实体关系图,从而导致学习不到有用知识。其实是图卷积神经网络的计算复杂度是O(n2),n是实体关系图的规模,导致这种方法计算效率低下,无法处理较长问题。

技术实现思路

[0005]为了解决上述常识问答任务模型准确率低问题,提出了本专利技术。本专利技术的实施例提供了一种基于知识库与实体聚焦的常识问答方法、装置及存储介质。
[0006]根据本专利技术实施例的一个方面,提供了一种基于知识库与实体聚焦的常识问答方法,包括:
[0007]使用多种关键词提取算法,从问答语料中提取关键词,并根据各个关键词提取算法的提取结果进行加权计算得到关键实体名称;
[0008]针对每个关键实体名称,向预设的知识库检索对应的释义,得到所有关键实体名
称的释义信息,其中预设的知识库存储有多个实体名称以及各个实体名称对应的实体描述;
[0009]根据所有关键实体名称的释义信息,对问答语料进行重构,得到多个新问答语料,其中不同的新问答语料包含不同实体的释义信息;
[0010]使用预先训练好的语言模型,计算重构后的每个问答语料的各个候选答案的概率,并将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分,选取概率得分最高的候选答案作为最终答案。
[0011]可选地,使用多种关键词提取算法,从问答语料中提取关键词,并根据各个关键词提取算法的提取结果进行加权计算得到关键实体名称,包括:
[0012]使用TF

IDF算法,从问答语料中提取关键词,得到第一提取结果;
[0013]使用TextRank算法,从问答语料中提取关键词,得到第二提取结果;
[0014]使用LDA算法,从问答语料中提取关键词,得到第三提取结果;
[0015]根据第一提取结果、第二提取结果、第三提取结果以及对应的算法权重,加权计算得到关键实体名称。
[0016]可选地,针对每个关键实体名称,向预设的知识库检索对应的释义,得到所有关键实体名称的释义信息,包括:
[0017]从提取结果中获取所有的关键实体名称;
[0018]分别从预设的知识库中检索各个关键实体名称对应的信息,从对应的信息中获取释义信息,得到所有关键实体名称的释义信息。
[0019]可选地,使用预先训练好的语言模型,计算重构后的每个问答语料的各个候选答案的概率,并将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分,选取概率得分最高的候选答案作为最终答案,包括:
[0020]拼接问题与各个候选答案后,使用预先训练好的语言模型,计算语言的共现概率,得到每一个重构后的问答语料的各个候选答案的概率;
[0021]将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分;
[0022]选取概率得分最高的候选答案作为最终答案。
[0023]根据本专利技术实施例的另一个方面,提供了一种基于知识库与实体聚焦的常识问答装置,包括:
[0024]实体抽取模块,用于使用多种关键词提取算法,从问答语料中提取关键词,并根据各个关键词提取算法的提取结果进行加权计算得到关键实体名称;
[0025]知识检索模块,用于针对每个关键实体名称,向预设的知识库检索对应的释义,得到所有关键实体名称的释义信息,其中预设的知识库存储有多个实体名称以及各个实体名称对应的实体描述;
[0026]语料重构模块,用于根据所有关键实体名称的释义信息,对问答语料进行重构,得到多个新问答语料,其中不同的新问答语料包含不同实体的释义信息;
[0027]语言概率计算模块,用于使用预先训练好的语言模型,计算重构后的每个问答语料的各个候选答案的概率,并将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分,选取概率得分最高的候选答案作为最终答案。
[0028]可选地,实体抽取模块,具体用于:
[0029]使用TF

IDF算法,从问答语料中提取关键词,得到第一提取结果;
[0030]使用TextRank算法,从问答语料中提取关键词,得到第二提取结果;
[0031]使用LDA算法,从问答语料中提取关键词,得到第三提取结果;
[0032]根据第一提取结果、第二提取结果、第三提取结果以及对应的算法权重,加权计算得到关键实体名称。
[0033]可选地,知识检索模块,具体用于:
[0034]从提取结果中获取所有的关键实体名称;
[0035]分别从预设的知识库中检索各个关键实体名称对应的信息,从对应的信息中获取释义信息,得到所有关键实体名称的释义信息。
[0036]可选地,语言概率计算模块,具体用于:
[0037]拼接问题与各个候选答案后,使用预先训练好的语言模型,计算语言的共现概率,得到每一个重构后的问答语料的各个候选答案的概率;
[0038]将重构后的所有问答本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识库与实体聚焦的常识问答方法,其特征在于,包括:使用多种关键词提取算法,从问答语料中提取关键词,并根据各个关键词提取算法的提取结果进行加权计算得到关键实体名称;针对每个关键实体名称,向预设的知识库检索对应的释义,得到所有关键实体名称的释义信息,其中预设的知识库存储有多个实体名称以及各个实体名称对应的实体描述;根据所有关键实体名称的释义信息,对问答语料进行重构,得到多个新问答语料,其中不同的新问答语料包含不同实体的释义信息;使用预先训练好的语言模型,计算重构后的每个问答语料的各个候选答案的概率,并将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分,选取概率得分最高的候选答案作为最终答案。2.根据权利要求1所述的方法,其特征在于,使用多种关键词提取算法,从问答语料中提取关键词,并根据各个关键词提取算法的提取结果进行加权计算得到关键实体名称,包括:使用TF

IDF算法,从问答语料中提取关键词,得到第一提取结果;使用TextRank算法,从问答语料中提取关键词,得到第二提取结果;使用LDA算法,从问答语料中提取关键词,得到第三提取结果;根据第一提取结果、第二提取结果、第三提取结果以及对应的算法权重,加权计算得到关键实体名称。3.根据权利要求1所述的方法,其特征在于,针对每个关键实体名称,向预设的知识库检索对应的释义,得到所有关键实体名称的释义信息,包括:从提取结果中获取所有的关键实体名称;分别从预设的知识库中检索各个关键实体名称对应的信息,从对应的信息中获取释义信息,得到所有关键实体名称的释义信息。4.根据权利要求1所述的方法,其特征在于,使用预先训练好的语言模型,计算重构后的每个问答语料的各个候选答案的概率,并将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分,选取概率得分最高的候选答案作为最终答案,包括:拼接问题与各个候选答案后,使用预先训练好的语言模型,计算语言的共现概率,得到每一个重构后的问答语料的各个候选答案的概率;将重构后的所有问答语料对应的概率取均值,得到每个候选答案最终的概率得分;选取概率得分最高的候选答案作为最终答案。5.一种基于知识库与实体聚焦的常识问答装置,其特征在于,包括:实体抽取模块,用于...

【专利技术属性】
技术研发人员:赖新明王志刚马兰林文辉张朝霞
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1