基于知识库的问答处理方法技术

技术编号:17467537 阅读:63 留言:0更新日期:2018-03-15 05:03
本发明专利技术提供了一种基于知识库的问答处理方法,包括:根据目标问题和知识库确定候选信息对,所述信息对包括实体的信息及所述实体与其他实体间关系的信息;查询经训练的嵌入表得到所述目标问题和所述候选信息对应的各字母的嵌入位置数据、各单词的嵌入位置数据以及各词组的嵌入位置数据;根据各嵌入位置数据,计算所述目标问题与各候选信息对的匹配程度得分;根据所述目标问题与各候选信息对的匹配程度得分,在所述候选信息对中确定目标信息对;根据所述目标信息对查询知识库,得到所述问题对应的答案。

【技术实现步骤摘要】
基于知识库的问答处理方法
本专利技术涉及人工智能领域,尤其涉及一种基于知识库的问答处理方法。
技术介绍
随着互联网技术的快速发展,人们越来越习惯通过网络获取信息。在此基础上,问答系统受到了广泛关注并被大量研究和应用。其中,基于知识库的问答系统,以人工或构建的大规模知识库为信息源,能够回答常被人们提出的以知识、事实为基础的问题。为实现基于知识库的问答,可以采取语义解析方案或深度学习方案。语义解析方案将问题转化为能够被机器理解的逻辑表达式,再利用该表达式查询知识库获得答案。然而,语义解析方案为了排序并返回最佳的逻辑表达式,往往通过人工方式抽取问题和逻辑表达式的特征,且难以脱离一些模板和触发词,因而难以扩展。相较而言,深度学习方案,通过低维实数化的向量抽象问题和候选答案的语义信息,再通过向量相似度计算获得答案的排序。现有的相关技术中,在深入学习技术中,对问题和答案的处理,往往仅根据问题的词粒度和答案的实体粒度来处理,该处理方式导致回答匹配度不高的情况。
技术实现思路
本专利技术提供一种基于知识库的问答处理方法,以解决回答匹配度不高的问题。根据本专利技术的第一方面,提供了一种基于知识库的问答处理本文档来自技高网...
基于知识库的问答处理方法

【技术保护点】
一种基于知识库的问答处理方法,其特征在于,包括:根据目标问题和知识库确定候选信息对,所述信息对包括实体的信息及所述实体与其他实体间关系的信息;查询经训练的嵌入表得到的所述目标问题和所述候选信息对应的各字母的嵌入位置数据、各单词的嵌入位置数据以及各词组的嵌入位置数据;根据各嵌入位置数据,计算所述目标问题与各候选信息对的匹配程度得分;根据所述目标问题与各候选信息对的匹配程度得分,在所述候选信息对中确定目标信息对;根据所述目标信息对查询知识库,得到所述问题对应的答案。

【技术特征摘要】
1.一种基于知识库的问答处理方法,其特征在于,包括:根据目标问题和知识库确定候选信息对,所述信息对包括实体的信息及所述实体与其他实体间关系的信息;查询经训练的嵌入表得到的所述目标问题和所述候选信息对应的各字母的嵌入位置数据、各单词的嵌入位置数据以及各词组的嵌入位置数据;根据各嵌入位置数据,计算所述目标问题与各候选信息对的匹配程度得分;根据所述目标问题与各候选信息对的匹配程度得分,在所述候选信息对中确定目标信息对;根据所述目标信息对查询知识库,得到所述问题对应的答案。2.根据权利要求1所述的方法,其特征在于,所述根据目标问题和知识库确定候选信息对,包括:抽取所述目标问题中的所有词串,词串的长度大于等于1,小于等于所述问题的长度;确定其中的M个词串;其中,M为大于等于1的任意整数;根据所述M个词串,在所述知识库中确定K个实体;其中,K为大于等于1的任意整数;所述候选信息对包括所述K个实体及对应的实体间的关系。3.根据权利要求2所述的方法,其特征在于,所述确定其中的M个词串,包括:删除所述所有词串中包含疑问代词的词串;删除作为停止词的词串;保留判断为实体名或判断为实体名一部分的词串;在保留剩余的词串中选择长度最长的M个词串。4.根据权利要求2所述的方法,其特征在于,所述根据所述M个词串,在所述知识库中确定K个实体,包括:对于每个词串对应的实体,保留在知识库中作为头实体出现在事实中的次数最多的L个实体,以得到所述K个实体。5.根据权利要求1至4任一项所述的方法,其特征在于,所述嵌入表为根据第一预设范围的自然语言数据训练后得到的;其中,根据第一预设范围的自然语言数据训练得到,包括:得到未经训练的嵌入表;在所述第一预设范围内抽取自然语言的句子;根据所抽取的句子和其中的事实,训练嵌入表;得到经训练的嵌入表,所述经训练的嵌入表包含问题的字母、单词、词组及其对应的嵌入位置数据,以及信息对的字母、单词、词组及其对应的嵌入位置数据。6.根据权利要求5所述的方法,其特征在于,所述根据所抽取的句子和其中的事实,训练嵌入表,包括:根据所抽取的句子和其中的事实,得到字母、单词和词组的内容,以及对应的嵌入位置数据;对于得到的字母、单词和词组,根据周围字母、单词和词组以及其下层语义的字母、单词和词组分别对所述得到的字母、单词和词组进行预测;以训练所述得到的字母、单词和词组的嵌入位置数据。7.根据权利要求1至4任一项所述的方法,其特征在于,所述根据各嵌入位置数据,计算所述目标问题与各候选信息对的匹配程度...

【专利技术属性】
技术研发人员:程祥苏森朱署光
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1