基于知识图谱的搜索方法及装置制造方法及图纸

技术编号:18367381 阅读:30 留言:0更新日期:2018-07-05 08:37
本发明专利技术提供了一种基于知识图谱的搜索方法及装置,该方法包括:选取知识图谱的词条中的至少一个谓词;收集与各谓词匹配的自然语言问句,并在各谓词与其匹配的自然语言问句之间建立映射关系;当接收到来自用户的查询问句时,在所述映射关系中将所述查询问句与自然语言问句进行匹配,得到匹配的自然语言问句对应的目标谓词;基于所述查询问句与所述目标谓词,生成满足所述知识图谱的词条格式的查询语句;利用生成的所述查询语句查找所述知识图谱的词条,将查找得到的查询结果作为问答结果提供给所述用户。本发明专利技术实施例能够在用户口语化的表达的情况下提供准确的查询结果,从而提升用户的搜索体验。

Search method and device based on knowledge atlas

The present invention provides a search method and device based on a knowledge map. The method includes: selecting at least one predicate in the word bar of a knowledge map, collecting natural language questions that match each predicate, and establishing a mapping relationship between the predicates and their matched natural language questions; when receiving a query from the user In a question, the query sentence is matched with the natural language question in the mapping relationship, and the target predicate corresponding to the natural language question is obtained. Based on the query and the target predicate, the query sentence is generated to satisfy the description of the knowledge map. Find the entry of the knowledge map, and provide the query result as the question and answer result to the users. The embodiment of the invention can provide accurate query results with the expression of household registration, thereby enhancing the user's search experience.

【技术实现步骤摘要】
基于知识图谱的搜索方法及装置
本专利技术涉及信息搜索
,特别是一种基于知识图谱的搜索方法及装置。
技术介绍
知识图谱旨在描述真实世界中存在的各种实体或概念,每个实体或概念用一个全局唯一确定的ID(IDentity,身份标识号)来标识。知识图谱可以被看作是一张巨大的网状图,网状图中的节点表示实体或概念,而网状图中的边则由属性或关系构成。知识图谱主要就是构建和维护上述的实体和关系,为搜索中的推荐系统、语义理解、问题回答等提供支持。知识图谱的词条中有很多规范的谓词以及对应的值,例如,“刘德华出生日期1961年9月27日”,然而,用户的查询常常是口语化的,如“刘德华多高”,“刘德华在哪儿出生的”,“刘德华生日是哪天”等等,那么如何根据用户口语化的表达来提供准确的查询结果成为亟需解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于知识图谱的搜索方法及相应的装置。依据本专利技术的一方面,提供了一种基于知识图谱的搜索方法,包括:选取知识图谱的词条中的至少一个谓词;收集与各谓词匹配的自然语言问句,并在各谓词与其匹配的自然语言问句之间建立映射关系;当接收到来自用户的查询问句时,在所述映射关系中将所述查询问句与自然语言问句进行匹配,得到匹配的自然语言问句对应的目标谓词;基于所述查询问句与所述目标谓词,生成满足所述知识图谱的词条格式的查询语句;利用生成的所述查询语句查找所述知识图谱的词条,将查找得到的查询结果作为问答结果提供给所述用户。可选地,所述收集与各谓词匹配的自然语言问句,包括:构造各谓词对应的问句,并基于构造的问句将所述知识图谱中包含该谓词的词条转化为搜索问句;将所述搜索问句作为搜索query,在搜索引擎中进行搜索,得到所述搜索问句对应的一个或多个问答类结果;基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句。可选地,基于构造的问句将所述知识图谱中包含该谓词的词条转化为搜索问句,包括:获取所述知识图谱中包含该谓词的词条,并截取词条中包含主语词和谓词的部分;将截取的部分中的谓词替换为所述构造的问句,得到搜索问句。可选地,基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句,包括:从所述一个或多个问答类结果中提取问题项,并将其作为与该谓词匹配的自然语言问句。可选地,基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句,包括:从所述一个或多个问答类结果中提取问题项,并将其作为与所述搜索问句相关的候选query;从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句。可选地,从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句,包括:对所述候选query中的各个问题项与该谓词的对应关系做置信度打分;根据打分值,从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句。可选地,对所述候选query中的各个问题项与该谓词的对应关系做置信度打分,包括:获取人工标注的query与该谓词的对应关系;根据获取的人工标注的query与该谓词的对应关系生成训练数据;利用所述训练数据对指定分类器模型进行训练,确定所述指定分类器模型中的参数;将所述候选query中的各个问题项输入所述指定分类器模型,以由所述指定分类器模型对所述候选query中的各个问题项与该谓词的对应关系做置信度打分。可选地,若所述目标谓词包括多个;基于所述查询问句与所述目标谓词,生成满足所述知识图谱的词条格式的查询语句,包括:获取各个目标谓词对应的打分值,选取打分值最高的目标谓词;基于所述查询问句与所述打分值最高的目标谓词,生成满足所述知识图谱的词条格式的查询语句。可选地,在收集与各谓词匹配的自然语言问句之后,所述方法还包括:根据收集的与各谓词匹配的自然语言问句,计算两两谓词之间的相似度;将计算的相似度大于指定阈值的两两谓词作为同义词谓词。可选地,在所述映射关系中将所述查询问句与自然语言问句进行匹配,得到匹配的自然语言问句对应的目标谓词之后,所述方法还包括:判断是否存在所述目标谓词的同义词谓词;若存在,则基于所述查询问句与所述目标谓词的同义词谓词,生成满足所述知识图谱的词条格式的查询语句;利用生成的所述查询语句查找所述知识图谱的词条,将查找得到的查询结果作为问答结果提供给所述用户。可选地,若所述查询结果包括多个,将查找得到的查询结果作为问答结果提供给所述用户,包括:将查找得到的多个查询结果作为问答结果提供给所述用户;或者从查找得到的多个查询结果选取一个作为问答结果提供给所述用户。可选地,从查找得到的多个查询结果选取一个作为问答结果提供给所述用户,包括:统计各个查询结果对应的百科页面的访问数;选取访问数最大的查询结果作为问答结果提供给所述用户。依据本专利技术的另一方面,还提供了一种基于知识图谱的搜索装置,包括:选取模块,适于选取知识图谱的词条中的至少一个谓词;建立模块,适于收集与各谓词匹配的自然语言问句,并在各谓词与其匹配的自然语言问句之间建立映射关系;匹配模块,适于当接收到来自用户的查询问句时,在所述映射关系中将所述查询问句与自然语言问句进行匹配,得到匹配的自然语言问句对应的目标谓词;生成模块,适于基于所述查询问句与所述目标谓词,生成满足所述知识图谱的词条格式的查询语句;提供模块,适于利用生成的所述查询语句查找所述知识图谱的词条,将查找得到的查询结果作为问答结果提供给所述用户。可选地,所述建立模块包括:构造单元,适于构造各谓词对应的问句;转化单元,适于基于构造的问句将所述知识图谱中包含该谓词的词条转化为搜索问句;搜索单元,适于将所述搜索问句作为搜索query,在搜索引擎中进行搜索,得到所述搜索问句对应的一个或多个问答类结果;确定单元,适于基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句。可选地,所述转化单元还适于:获取所述知识图谱中包含该谓词的词条,并截取词条中包含主语词和谓词的部分;将截取的部分中的谓词替换为所述构造的问句,得到搜索问句。可选地,所述确定单元还适于:从所述一个或多个问答类结果中提取问题项,并将其作为与该谓词匹配的自然语言问句。可选地,所述确定单元还适于:从所述一个或多个问答类结果中提取问题项,并将其作为与所述搜索问句相关的候选query;从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句。可选地,所述确定单元还适于:对所述候选query中的各个问题项与该谓词的对应关系做置信度打分;根据打分值,从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句。可选地,所述确定单元还适于:获取人工标注的query与该谓词的对应关系;根据获取的人工标注的query与该谓词的对应关系生成训练数据;利用所述训练数据对指定分类器模型进行训练,确定所述指定分类器模型中的参数;将所述候选query中的各个问题项输入所述指定分类器模型,以由所述指定分类器模型对所述候选query中的各个问题项与该谓词的对应关系做置信度打分。可选地,若所述目标谓词包括多个,所述生成模块还适于:获取各个目标谓词对应的打分值,选取打分值最高的目标谓词;基于所述查询问句与所述打分值最高的目标谓词,生成满本文档来自技高网...
基于知识图谱的搜索方法及装置

【技术保护点】
1.一种基于知识图谱的搜索方法,包括:选取知识图谱的词条中的至少一个谓词;收集与各谓词匹配的自然语言问句,并在各谓词与其匹配的自然语言问句之间建立映射关系;当接收到来自用户的查询问句时,在所述映射关系中将所述查询问句与自然语言问句进行匹配,得到匹配的自然语言问句对应的目标谓词;基于所述查询问句与所述目标谓词,生成满足所述知识图谱的词条格式的查询语句;利用生成的所述查询语句查找所述知识图谱的词条,将查找得到的查询结果作为问答结果提供给所述用户。

【技术特征摘要】
1.一种基于知识图谱的搜索方法,包括:选取知识图谱的词条中的至少一个谓词;收集与各谓词匹配的自然语言问句,并在各谓词与其匹配的自然语言问句之间建立映射关系;当接收到来自用户的查询问句时,在所述映射关系中将所述查询问句与自然语言问句进行匹配,得到匹配的自然语言问句对应的目标谓词;基于所述查询问句与所述目标谓词,生成满足所述知识图谱的词条格式的查询语句;利用生成的所述查询语句查找所述知识图谱的词条,将查找得到的查询结果作为问答结果提供给所述用户。2.根据权利要求1所述的方法,其中,所述收集与各谓词匹配的自然语言问句,包括:构造各谓词对应的问句,并基于构造的问句将所述知识图谱中包含该谓词的词条转化为搜索问句;将所述搜索问句作为搜索query,在搜索引擎中进行搜索,得到所述搜索问句对应的一个或多个问答类结果;基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句。3.根据权利要求1或2所述的方法,其中,基于构造的问句将所述知识图谱中包含该谓词的词条转化为搜索问句,包括:获取所述知识图谱中包含该谓词的词条,并截取词条中包含主语词和谓词的部分;将截取的部分中的谓词替换为所述构造的问句,得到搜索问句。4.根据权利要求1-3中任一项所述的方法,其中,基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句,包括:从所述一个或多个问答类结果中提取问题项,并将其作为与该谓词匹配的自然语言问句。5.根据权利要求1-4中任一项所述的方法,其中,基于所述一个或多个问答类结果确定与该谓词匹配的自然语言问句,包括:从所述一个或多个问答类结果中提取问题项,并将其作为与所述搜索问句相关的候选query;从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句。6.根据权利要求1-5中任一项所述的方法,其中,从所述候选query中筛选出一个或多个问题项,作为与该谓词匹配的自然语言问句,包括:对所述候选q...

【专利技术属性】
技术研发人员:易勋陈进平
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1