问答处理方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:35062875 阅读:16 留言:0更新日期:2022-09-28 11:18
本发明专利技术公开了一种问答处理方法、装置、电子设备和计算机可读介质,涉及自然语言处理技术领域。该方法包括:获取用户的查询文本,对所述查询文本进行分词,得到多个第一分词;对所述查询文本进行命名实体识别,根据命名实体识别结果对所述多个第一分词进行修正,得到多个第二分词;根据所述多个第二分词和预构建的依存句法分析模型,确定所述多个第二分词之间的依赖关系;根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图;根据所述查询意图进行查询,确定所述查询文本的答案。该实施方式能够准确理解复杂问题的意图,向用户反馈精准的答案,并且提高了实体识别准确率。了实体识别准确率。了实体识别准确率。

【技术实现步骤摘要】
问答处理方法、装置、电子设备和计算机可读介质


[0001]本专利技术涉及人工智能
,尤其涉及一种问答处理方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。为了快速准确地理解数据的语义,基于知识图谱的问答系统应运而生。知识图谱(knowledge graph)是一种基于有向图(directed graph)的数据结构,由节点(points)及有向边(directed edges)组成,图中的每个节点称为实体(entity),边代表实体间的逻辑关系(relation)。知识图谱可以使用三元组(entity

1, relation,entity

2)来表示一个知识。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:相关的知识图谱问答方案结构简单,且效果不稳定,多是基于分词和词性完成实体的抽取,实体识别率较低,且无法有效解决多跳问题。

技术实现思路

[0004]为解决上述技术问题或至少部分地解决上述技术问题,本专利技术实施例提供一种问答处理方法、装置、电子设备及计算机可读介质。
[0005]第一方面,本专利技术实施例提供了一种问答处理方法,包括:获取用户的查询文本,对所述查询文本进行分词,得到多个第一分词;对所述查询文本进行命名实体识别,根据命名实体识别结果对所述多个第一分词进行修正,得到多个第二分词;根据所述多个第二分词和预构建的依存句法分析模型,确定所述多个第二分词之间的依赖关系;根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图;根据所述查询意图进行查询,确定所述查询文本的答案。
[0006]在可选的实施例中,所述命名实体识别结果包括多个命名实体;
[0007]对所述查询文本进行命名实体识别,根据命名实体识别结果对所述多个第一分词进行修正,得到多个第二分词,包括:针对每一所述第一分词,将所述第一分词与每个所述命名实体进行匹配,确定所述第一分词的开始位置和/或结束位置是否属于所述命名实体;若是,则将所述命名实体作为所述分词对应的目标命名实体;根据所述第一分词及所述目标命名实体,对所述多个第一分词进行组合,得到多个第二分词。
[0008]在可选的实施例中,所述方法还包括:根据所述目标命名实体的词性,确定所述第二分词的词性;或,根据所述第二分词中包含的第一分词的词性,确定所述第二分词的词性。
[0009]在可选的实施例中,根据所述第二分词中包含的第一分词的词性,确定所述第二分词的词性包括:将所述第二分词中的第k个第一分词的词性作为所述第二分词的词性,k为正整数;或,统计所述第二分词中所有第一分词的词性的比例,将比例最高的词性作为所
述第二分词的词性。
[0010]在可选的实施例中,所述方法还包括:构建命名实体分类体系;所述命名实体分类体系包括以下至少一项:实体、实体类别、属性词、关系词、条件值、约束条件和聚合函数;根据所述命名实体分类体系对训练样本数据进行标注,确定所述训练样本数据中的命名实体;对标注后的所述训练样本数据进行训练,得到命名实体识别模型;
[0011]对所述查询文本进行命名实体识别包括:利用所述命名实体识别模型,对所述查询文本进行命名实体识别。
[0012]在可选的实施例中,根据所述命名实体分类体系对训练样本数据进行标注,包括:根据所述命名实体分类体系,基于BIO标注方式对所述训练样本数据进行标注。
[0013]在可选的实施例中,所述命名实体识别模型包括BERT子模型和CRF 子模型,所述BERT子模型用于确定所述查询文本的编码向量,所述CRF 子模型根据所述编码向量确定所述查询文本中的命名实体。
[0014]在可选的实施例中,所述依存句法分析模型包括第一分析模型和第二分析模型;所述第一分析模型用于确定所述第二分词之间的中文句法关系,所述第二分析模型用于确定所述第二分词之间的问答逻辑关系。
[0015]在可选的实施例中,所述中文句法关系包括以下至少一项:主谓关系、动宾关系、间宾关系、定中关系、状中结构、动补结构、并列关系、介宾关系和附加关系;所述问答逻辑关系包括以下至少一项:主实体关系、主实体约束关系、主实体主体关系、主关系、关系约束、无意义成分、并列关系。
[0016]在可选的实施例中,根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图包括:对所述多个第二分词和所述知识图谱进行实体链接、属性链接和关系链接,确定候选实体、候选属性和候选关系;根据所述候选实体、所述候选属性、所述候选关系和所述依赖关系作为特征数据,将所述特征数据与预构建的知识图谱中的三元组进行匹配,确定所述查询文本的查询路径。
[0017]在可选的实施例中,所述方法还包括:根据所述依赖关系,确定所述查询文本属于多跳查询语句;
[0018]将所述特征数据与所述知识图谱中的三元组进行匹配,确定所述查询文本的查询路径包括:根据预设的限制规则,将所述特征数据与所述知识图谱中的三元组进行匹配,确定所述查询文本的查询路径,其中,所述预设的限制规则用于指示将所述查询文本的跳数限制在预设范围内。
[0019]在可选的实施例中,所述方法还包括:在所述查询文本的命名实体识别结果中包括约束条件和/或聚合函数的情况下,将所述约束条件和/或聚合函数挂载在所述候选实体上。
[0020]在可选的实施例中,根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图包括:根据所述多个第二分词和所述依赖关系,确定所述查询文本的类型;在确定所述查询文本的类型为第一类型的情况下,根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图;在确定所述查询文本的类型为第二类型的情况下,根据预设的关键词词表,确定所述多个第二分词中的目标关键词,根据所述目标关键词和所述依赖关系确定所述查询文本的查询意图。
[0021]第二方面,本专利技术实施例提供了一种问答处理装置,包括:分词模块,用于获取用户的查询文本,对所述查询文本进行分词,得到多个第一分词;修正模块,用于对所述查询文本进行命名实体识别,根据命名实体识别结果对所述多个第一分词进行修正,得到多个第二分词;关系识别模块,用于根据所述多个第二分词和预构建的依存句法分析模型,确定所述多个第二分词之间的依赖关系;意图确定模块,用于根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图;查询模块,用于根据所述查询意图进行查询,确定所述查询文本的答案。
[0022]在可选的实施例中,所述命名实体识别结果包括多个命名实体;
[0023]所述修正模块还用于:针对每一所述第一分词,将所述第一分词与每个所述命名实体进行匹配,确定所述第一分词的开始位置和/或结束位置是否属本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答处理方法,其特征在于,包括:获取用户的查询文本,对所述查询文本进行分词,得到多个第一分词;对所述查询文本进行命名实体识别,根据命名实体识别结果对所述多个第一分词进行修正,得到多个第二分词;根据所述多个第二分词和预构建的依存句法分析模型,确定所述多个第二分词之间的依赖关系;根据所述多个第二分词、所述依赖关系和预构建的知识图谱,确定所述查询文本的查询意图;根据所述查询意图进行查询,确定所述查询文本的答案。2.根据权利要求1所述的方法,其特征在于,所述命名实体识别结果包括多个命名实体;根据命名实体识别结果对所述多个第一分词进行修正,得到多个第二分词,包括:针对每一所述第一分词,将所述第一分词与每个所述命名实体进行匹配,确定所述第一分词的开始位置和/或结束位置是否属于所述命名实体;若是,则将所述命名实体作为所述分词对应的目标命名实体;根据所述第一分词及所述目标命名实体,对所述多个第一分词进行组合,得到多个第二分词。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:构建命名实体分类体系;所述命名实体分类体系包括以下至少一项:实体、实体类别、属性词、关系词、条件值、约束条件和聚合函数;根据所述命名实体分类体系对训练样本数据进行标注,确定所述训练样本数据中的命名实体;对标注后的所述训练样本数据进行训练,得到命名实体识别模型;对所述查询文本进行命名实体识别包括:利用所述命名实体识别模型,对所述查询文本进行命名实体识别。4.根据权利要求3所述的方法,其特征在于,所述依存句法分析模型包括第一分析模型和第二分析模型;所述第一分析模型用于确定所述第二分词之间的中文句法关系,所述第二分析模型用于确定所述第二分词之间的问答逻辑关系;所述中文句法关系包括以下至少一项:主谓关系、动宾关系、间宾关系、定中关系、状中结构、动补结构、并列关系、介宾关系和附加关系;所述问答逻辑关系包括以下至少一项:主实体关系、主实体约束关系、主实体主体关系、主关系、关系约束、无意义成分、并列关系。5.根据权利要求4所述的方法,其特征在于,根据所述多个第二...

【专利技术属性】
技术研发人员:杨春阳邢启洲李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1