一种语义检索方法、装置及电子设备制造方法及图纸

技术编号:26597964 阅读:29 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开了一种语义检索方法、装置及电子设备,方法包括:接收用户发送的查询信息;对查询信息中的文本进行纠错,获得纠正文本;对纠正文本进行用户意图分析,确定所识别的用户意图的第一分值;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定第二候选答案集中的各个候选答案的第三分值;根据第一分值、第二分值以及第三分值对候选答案进行排序得到答案;该方法相比于基于关键词的检索能更好的满足用户查询需求。

【技术实现步骤摘要】
一种语义检索方法、装置及电子设备
本专利技术涉及信息处理
,尤其涉及一种语义检索方法、装置及电子设备。
技术介绍
在互联网海量信息中,经常需要通过搜索引擎来检索自己需要的信息,然而目前搜索引擎的检索效果并不好,仍需要用户在返回的大量网页中筛选,无法满足方便快捷的检索需求。由此产生了智慧服务,使用智能化的手段将信息数字化,但依然难以挖掘数据之间的信息关联,导致很多数据信息没有得到有效利用。在现有的搜索引擎中,大多还是以关键字匹配、PageRank、倒排索引等传统方式作为搜索方法,为了尽可能满足用户查询需求,往往会对用户查询做分词、词性识别、命名实体识别等基础的词法分析,再联合查询。虽然此种方法可以提高查询效果,但也只停留在浅层的语义解析,无法理解用户的查询意图。在基于知识图谱的检索与问答系统中,大部分的检索与问答都是基于简单事实的查询,也就是一跳查询,涉及到较为复杂的多跳查询往往得不到很好的检索结果,甚至无法返回结果。
技术实现思路
本专利技术提供了一种语义检索方法、装置及电子设备,能够有效解决现有的检索方法无法理解用于查询意图、查询效果无法满足用户的问题。一种语义检索方法,包括:接收用户发送的查询信息;对所述查询信息中的文本进行纠错,获得纠正文本;基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。进一步地,对所述查询信息中的文本进行纠错,获得纠正文本,包括:采用中文分词器对所述文本进行切词,通过字粒度和词粒度进行错误检测,生成疑似错误位置候选集;遍历所有疑似错误位置,并从预先存储的词典中查找音似和形似的词替换疑似错误位置的词,通过语言模型计算句子困惑度;根据句子困惑度计算结果对替换结果进行排序,获得最优纠正词;根据所述最优纠正词生成所述纠正文本。进一步地,对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集包括:抽取所述纠正文本中的实体信息、关系信息和属性信息,使用同义词词典将其链接到所述知识图谱中的实体、关系或属性,生成SQL查询语句;将所述SQL查询语句填充至所抽取的对应词槽位置,执行查询得到第一候选答案集。进一步地,对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集包括:将所述纠正文本进行文本向量化,从所述向量化FAQ问答对中查找相似向量,获得对应的答案,生成第二候选答案集。进一步地,从所述向量化FAQ问答对中查找相似向量,包括:计算向量化的所述纠正文本与所述向量化FAQ问答对中问题的相似度,返回相似度最高的问题所对应的答案;和/或计算向量化的所述纠正文本与所述向量化FAQ问答对中答案的相似度,返回相似度最高的答案。进一步地,根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案包括:对所述简单事实问答的第一分值和第二分值加权求和,得到第一候选答案集中的各个候选答案的第四分值;对所述常见问题解答的第一分值和第三分值加权求和,得到第二候选答案集中的各个候选答案的第五分值;根据第四分值和第五分值对全部候选答案进行排序,选择排序最高的答案;根据所选择的答案和回答模板生成回答反馈给用户。进一步地,所述问题模板库是按照下述方式预先构建的:采集历史的用户查询信息,根据所述用户查询信息构建所述问题模板库;所述向量化FAQ问答对是按照下述方式预先构建的:收集用户常见问题并制作标准答案,将所述常见问题和所述标准答案进行向量化,获得所述向量化FAQ问答对。一种语义检索装置,包括:接收模块,用于接收用户发送的查询信息;纠错模块,用于对所述查询信息中的文本进行纠错,获得纠正文本;意图确定模块,用于基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;第一检索模块,用于对简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;第二检索模块,用于对常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;答案生成模块,用于根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行上述的语义检索方法。一种计算机可读存储介质,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行上述的语义检索方法。本专利技术提供的语义检索方法、装置及电子设备,至少包括如下有益效果:(1)基于语义级别的自然语言理解,可以更好的匹配到用户真实意图,提高检索的效率和准确率,相比于基于关键词的检索能更好的满足用户查询需求;(2)基于同义词典,可以对识别后的实体、属性以及关系进行归一化描述,将用户查询语句中的不规范、表达不准确的实体进行规范化的描述,避免因为实体的描述不规范而无法正确的链接到知识图谱中的实体节点,提高了基于知识图谱检索系统的鲁棒性;(3)对于FAQ等非简单事实查询,可以通过语义级的向量化检索服务查询到最符合用户意图的答案。附图说明图1为本专利技术提供的语义检索方法一种实施例的流程图。图2为本专利技术提供的语义检索方法中文本纠错方法一种实施例的流程图。图3为本专利技术提供的语义检索方法中基于知识图谱检索方法一种实施例的流程图。图4为本专利技术提供的语义检索方法中基于向量化FAQ问答对检索方法一种实施例的流程图。图5为本专利技术提供的语义检索方法中对候选答案进行排序得到答案的方法一种实施例的流程图。图6为本专利技术提供的语义检索装置一种实施例的结构示意图。图7为本专利技术提供的电子设备一种实施例的结构示意图。具体实施方式为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。参考图1,在一些实施例中,提供一种语义检索方法,包括:步骤S101,接收用户发送的查询信息;步骤S102,对所述查询信息中的文本进行纠错,获得纠正文本;步骤S103,基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的本文档来自技高网...

【技术保护点】
1.一种语义检索方法,其特征在于,包括:/n接收用户发送的查询信息;/n对所述查询信息中的文本进行纠错,获得纠正文本;/n基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;/n对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;/n对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;/n根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。/n

【技术特征摘要】
1.一种语义检索方法,其特征在于,包括:
接收用户发送的查询信息;
对所述查询信息中的文本进行纠错,获得纠正文本;
基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;
对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;
对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;
根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。


2.根据权利要求1所述的方法,其特征在于,对所述查询信息中的文本进行纠错,获得纠正文本,包括:
采用中文分词器对所述文本进行切词,通过字粒度和词粒度进行错误检测,生成疑似错误位置候选集;
遍历所有疑似错误位置,并从预先存储的词典中查找音似和形似的词替换疑似错误位置的词,通过语言模型计算句子困惑度;
根据句子困惑度计算结果对替换结果进行排序,获得最优纠正词;
根据所述最优纠正词生成所述纠正文本。


3.根据权利要求2所述的方法,其特征在于,对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集包括:
抽取所述纠正文本中的实体信息、关系信息和属性信息,使用同义词词典将其链接到所述知识图谱中的实体、关系或属性,生成SQL查询语句;
将所述SQL查询语句填充至所抽取的对应词槽位置,执行查询得到第一候选答案集。


4.根据权利要求3所述的方法,其特征在于,对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集包括:
将所述纠正文本进行文本向量化,从所述向量化FAQ问答对中查找相似向量,获得对应的答案,生成第二候选答案集。


5.根据权利要求4所述的方法,其特征在于,从所述向量化FAQ问答对中查找相似向量,包括:
计算向量化的所述纠正文本与所述向量化FAQ问答对中问题的相似度,返回相似度最高的问题所对应的答案;和/或
计算向量化的所述纠正文本与所述向量...

【专利技术属性】
技术研发人员:周阳钱泓锦刘占亮窦志成
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1