【技术实现步骤摘要】
一种语义检索方法、装置及电子设备
本专利技术涉及信息处理
,尤其涉及一种语义检索方法、装置及电子设备。
技术介绍
在互联网海量信息中,经常需要通过搜索引擎来检索自己需要的信息,然而目前搜索引擎的检索效果并不好,仍需要用户在返回的大量网页中筛选,无法满足方便快捷的检索需求。由此产生了智慧服务,使用智能化的手段将信息数字化,但依然难以挖掘数据之间的信息关联,导致很多数据信息没有得到有效利用。在现有的搜索引擎中,大多还是以关键字匹配、PageRank、倒排索引等传统方式作为搜索方法,为了尽可能满足用户查询需求,往往会对用户查询做分词、词性识别、命名实体识别等基础的词法分析,再联合查询。虽然此种方法可以提高查询效果,但也只停留在浅层的语义解析,无法理解用户的查询意图。在基于知识图谱的检索与问答系统中,大部分的检索与问答都是基于简单事实的查询,也就是一跳查询,涉及到较为复杂的多跳查询往往得不到很好的检索结果,甚至无法返回结果。
技术实现思路
本专利技术提供了一种语义检索方法、装置及电子设备,能够有效解决现有的检索方法无法理解用于查询意图、查询效果无法满足用户的问题。一种语义检索方法,包括:接收用户发送的查询信息;对所述查询信息中的文本进行纠错,获得纠正文本;基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集, ...
【技术保护点】
1.一种语义检索方法,其特征在于,包括:/n接收用户发送的查询信息;/n对所述查询信息中的文本进行纠错,获得纠正文本;/n基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;/n对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;/n对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;/n根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。/n
【技术特征摘要】
1.一种语义检索方法,其特征在于,包括:
接收用户发送的查询信息;
对所述查询信息中的文本进行纠错,获得纠正文本;
基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;
对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;
对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;
根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。
2.根据权利要求1所述的方法,其特征在于,对所述查询信息中的文本进行纠错,获得纠正文本,包括:
采用中文分词器对所述文本进行切词,通过字粒度和词粒度进行错误检测,生成疑似错误位置候选集;
遍历所有疑似错误位置,并从预先存储的词典中查找音似和形似的词替换疑似错误位置的词,通过语言模型计算句子困惑度;
根据句子困惑度计算结果对替换结果进行排序,获得最优纠正词;
根据所述最优纠正词生成所述纠正文本。
3.根据权利要求2所述的方法,其特征在于,对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集包括:
抽取所述纠正文本中的实体信息、关系信息和属性信息,使用同义词词典将其链接到所述知识图谱中的实体、关系或属性,生成SQL查询语句;
将所述SQL查询语句填充至所抽取的对应词槽位置,执行查询得到第一候选答案集。
4.根据权利要求3所述的方法,其特征在于,对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集包括:
将所述纠正文本进行文本向量化,从所述向量化FAQ问答对中查找相似向量,获得对应的答案,生成第二候选答案集。
5.根据权利要求4所述的方法,其特征在于,从所述向量化FAQ问答对中查找相似向量,包括:
计算向量化的所述纠正文本与所述向量化FAQ问答对中问题的相似度,返回相似度最高的问题所对应的答案;和/或
计算向量化的所述纠正文本与所述向量...
【专利技术属性】
技术研发人员:周阳,钱泓锦,刘占亮,窦志成,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。