面向多源异构数据源的智能问答方法及装置制造方法及图纸

技术编号:28837689 阅读:11 留言:0更新日期:2021-06-11 23:35
本发明专利技术提供一种面向多源异构数据源的智能问答方法及装置,方法包括:计算输入问题与候选关系的第一相似度;根据第一相似度,从知识库中获取第一答案;根据输入问题检索多跳文本;计算多跳文本中的句子与输入问题之间的第二相似度以及多跳文本中的实体与输入问题之间的第三相似度;根据第二相似度及第三相似度,从多跳文本中获取第二答案;判定第一答案和第二答案的关系,输出输入问题的答案文本。通过本发明专利技术的面向多源异构数据源的智能问答方法及装置,提升了输出答案的准确度以及丰富性,能够返回一个更易于用户理解、简洁完整的答案。

【技术实现步骤摘要】
面向多源异构数据源的智能问答方法及装置
本专利技术涉及深度学习和智能问答
,尤其涉及一种面向多源异构数据源的智能问答方法及装置。
技术介绍
智能问答的实现涉及到知识库问答、信息检索、知识表示等多个技术,已逐步应用于知识获取、聊天机器人等场景中。根据问题答案的来源,可将问答技术分为两个方向,一个是答案来源于结构化信息的知识库问答技术;另一个是答案来源于非结构化信息的文本问答技术。一方面,随着深度学习技术的快速发展,越来越多的研究学者尝试利用深度神经网络对问题和知识库知识进行短文本语义建模,并且通过计算两者之间的相似度去获得最匹配的知识作为问题的答案,这种基于向量建模的知识库问答方法不需要专家知识和人工干预,而且能保证一定的回答准确度,但是现有的向量建模方法仍有一些局限:知识库知识表示不够全面,缺少知识库信息;模型无法辨别字面相近的知识等,限制模型准确度的进一步提升。另一方面,近年来图神经网络在自然语言处理领域取得了重大进展,推动了其在多跳文本问答任务中的发展。现有的基于图神经网络的多跳文本问答方法使用图卷积网络、图循环网络、图注意力网络等图神经网络通过在构建的实体图上进行推理得到文本中最相关的答案线索。但是这些方法只关注了文本中的实体信息;缺少对噪音句子的过滤等,从而降低了模型的推理能力。另外,现有的智能问答技术很少研究利用多源异构信息源将两者结合起来进行优势互补的方法。
技术实现思路
(一)要解决的技术问题针对于现有的技术问题,本专利技术提供一种面向多源异构数据源的智能问答方法及装置,用于至少部分解决以上技术问题。(二)技术方案本专利技术提供一种面向多源异构数据源的智能问答方法,包括:计算输入问题与候选关系的第一相似度,其中,候选关系为知识库中与输入问题相关的关系;根据第一相似度,从知识库中获取第一答案;根据输入问题检索多跳文本;计算多跳文本中的句子与输入问题之间的第二相似度以及多跳文本中的实体与输入问题之间的第三相似度;根据第二相似度及第三相似度,从多跳文本中获取第二答案;判定第一答案和第二答案的关系,输出输入问题的答案文本。可选地,查询输入问题中的实体在知识库中的实体类型;获取知识库的层级信息和输入问题与候选关系的字面信息;根据实体类型、层级信息,以及字面信息计算输入问题与候选关系的第一相似度。可选地,根据知识库的实体类型信息和层级信息,以及输入问题与候选关系的字面信息计算输入问题与候选关系的第一相似度,包括:去除输入问题中包含的实体,得到问题模板;整合实体类型的全局信息和局部信息的特征;计算特征整合后的实体类型和候选关系的相似度,得到第一相似度得分;分别对问题模板和候选关系进行语义匹配和字面匹配,计算问题模板和候选关系的相似度,得到第二相似度得分和第三相似度得分,其中,进行语义匹配,包括:基于知识库的层级信息,将候选关系分为分别映射实体和问题模板中的关系指代两个部分,来计算得到第二相似度得分。可选地,根据第一相似度,从知识库中获取第一答案,包括:根据第一相似度得分,第二相似度得分和第三相似度得分得到与输入问题最匹配的候选关系,并根据与输入问题最匹配的候选关系对输入问题进行实体检测,得到主题实体,再根据主题实体得到第一答案。可选地,计算多跳文本中的句子与输入问题之间的第二相似度以及多跳文本中的实体与输入问题之间的第三相似度,包括:筛选出与输入问题相关联的篇章并拼接成长文本;对长文本和输入问题进行编码,计算编码后的长文本与输入问题的注意力表示;分别以长文本中的句子和实体为节点,构建句子图神经网络和实体图神经网络,并推理得到粗粒度图神经网络信息和细粒度图神经网络信息;基于注意力表示,采用自注意力机制计算得到长文本的全局表示。可选地,根据第二相似度及第三相似度,从多跳文本中获取第二答案,包括:将长文本的全局表示与粗粒度图神经网络信息和细粒度图神经网络信息融合,对融合后的长文本进行线索句子、答案开始词、答案结束词的预测,得到第二答案。可选地,计算输入问题与候选关系的第一相似度时,可以使用对抗训练引入具有干扰能力的输入向量。可选地,判定第一答案和第二答案的关系,包括:对第一答案和第二答案进行向量编码;将经向量编码后的第一答案和第二答案输入分类器,得到关系,判定关系为蕴含或独立或矛盾,其中,对独立的第一答案和第二答案进行合并,得到合并后的答案文本。可选地,输出输入问题的答案文本,包括:输出被蕴含的第一答案或第二答案;或者,输出合并后的答案文本;或者,输出矛盾的第一答案和第二答案;以及,输出得到答案文本的依据。本专利技术另一方面提供一种面向多源异构数据源的智能问答装置,包括:问题输入模块,用于输入问题;知识库问答模块,用于计算输入问题和候选关系的第一相似度,其中,候选关系为知识库中与输入问题相关的关系;根据第一相似度,从知识库中获取第一答案;多跳文本问答模块,用于根据输入问题检索多跳文本;计算多跳文本中的句子与输入问题之间的第二相似度以及多跳文本中的实体与输入问题之间的第三相似度;根据第二相似度及第三相似度,从多跳文本中获取第二答案;答案融合模块,用于判定第一答案和第二答案的关系,得到输入问题的答案文本;答案输出模块,用于输出输入问题的答案文本。(三)有益效果本专利技术提供一种面向多源异构数据源的智能问答方法及装置,通过从结构化的知识库和非结构化的文本中同时检索输入问题的相关答案,其中,通过多角度的知识库信息,可以充分理解并表示知识,同时对多跳文本的检测可以极大的丰富答案内容,将两者结合起来,能够充分利用多源异构信息返回答案,相比于单一信息源,综合知识库信息和文本语义信息能更好地整合更多知识,为答案推理提供更多信息来源和支撑,即保留了知识库问答获取答案准确便利的优点,又能很好的利用文本问答涵盖答案范围全面的长处,提升了输出答案的准确度以及丰富性。在进行知识库问答时,充分利用知识库包含的各种信息与问题进行匹配,并且使用了对抗训练的方法,提升了知识库问答的性能,提高了知识库和问题匹配的准确度以及问答模型(装置)的鲁棒性。在进行文本问答时,构建结点是实体和结点是句子的多粒度图神经网络,分别作为粗粒度和细粒度的推理模块,分别在句子粒度和实体粒度使用图神经网络进行信息传播,根据与问题的相关程度,赋予节点不同的权重,进一步过滤了噪音文本信息,提高了文本答案线索抽取的性能。统一知识库问答输出和文本问答输出,使多源异构信息能够有效结合,能够返回一个更易于用户理解、简洁完整的答案。附图说明图1示意性示出了本专利技术实施例的面向多源异构数据源的智能问答方法流程图;图2示意性示出了本专利技术实施例的知识库问答模块结构图;图3示意性示出了本专利技术实施例的对抗训练模型图;图4示意性示出了本专利技术实施例的多跳文本问答模块结构图;图5示意性示出了本专利技术实施例的答案融合模块结构图;图6示意性示出了本专利技术实施例的面向多源异构数据源的智能问答装置的框图;图7示意性示出了本本文档来自技高网...

【技术保护点】
1.一种面向多源异构数据源的智能问答方法,其特征在于,包括:/n计算输入问题与候选关系的第一相似度,其中,所述候选关系为知识库中与所述输入问题相关的关系;/n根据所述第一相似度,从所述知识库中获取第一答案;/n根据所述输入问题检索多跳文本;/n计算所述多跳文本中的句子与所述输入问题之间的第二相似度以及所述多跳文本中的实体与所述输入问题之间的第三相似度;/n根据所述第二相似度及所述第三相似度,从所述多跳文本中获取第二答案;/n判定所述第一答案和所述第二答案的关系,输出所述输入问题的答案文本。/n

【技术特征摘要】
1.一种面向多源异构数据源的智能问答方法,其特征在于,包括:
计算输入问题与候选关系的第一相似度,其中,所述候选关系为知识库中与所述输入问题相关的关系;
根据所述第一相似度,从所述知识库中获取第一答案;
根据所述输入问题检索多跳文本;
计算所述多跳文本中的句子与所述输入问题之间的第二相似度以及所述多跳文本中的实体与所述输入问题之间的第三相似度;
根据所述第二相似度及所述第三相似度,从所述多跳文本中获取第二答案;
判定所述第一答案和所述第二答案的关系,输出所述输入问题的答案文本。


2.根据权利要求1所述的面向多源异构数据源的智能问答方法,其特征在于,查询所述输入问题中的实体在所述知识库中的实体类型;
获取所述知识库的层级信息和所述输入问题与所述候选关系的字面信息;
根据所述实体类型、所述层级信息,以及所述字面信息计算所述输入问题与所述候选关系的第一相似度。


3.根据权利要求2所述的面向多源异构数据源的智能问答方法,其特征在于,所述根据所述知识库的实体类型信息和层级信息,以及所述输入问题与所述候选关系的字面信息计算所述输入问题与所述候选关系的第一相似度,包括:
去除所述输入问题中包含的实体,得到问题模板;
整合所述实体类型的全局信息和局部信息的特征;
计算特征整合后的所述实体类型和所述候选关系的相似度,得到第一相似度得分;
分别对所述问题模板和所述候选关系进行语义匹配和字面匹配,计算所述问题模板和所述候选关系的相似度,得到第二相似度得分和第三相似度得分,其中,所述进行语义匹配,包括:
基于所述知识库的层级信息,将所述候选关系分为分别映射所述实体和所述问题模板中的关系指代两个部分,来计算得到所述第二相似度得分。


4.根据权利要求3所述的面向多源异构数据源的智能问答方法,其特征在于,所述根据所述第一相似度,从知识库中获取第一答案,包括:
根据所述第一相似度得分,所述第二相似度得分和所述第三相似度得分得到与所述输入问题最匹配的所述候选关系,并根据所述与所述输入问题最匹配的所述候选关系对所述输入问题进行实体检测,得到主题实体,再根据所述主题实体得到所述第一答案。


5.根据权利要求1所述的面向多源异构数据源的智能问答方法,其特征在于,
所述计算所述多跳文本中的句子与所述输入问题之间的第二相似度以及所述多跳文本中的实体与所述输入问题之间的第三相似度,包括:
筛选出与所述输入问题相关联的篇章并拼接成长...

【专利技术属性】
技术研发人员:孙显刘庆李树超张泽群刘康李晓宇李欣隆吕博
申请(专利权)人:中国科学院空天信息创新研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1