实现查询理解的方法及装置制造方法及图纸

技术编号:10369847 阅读:155 留言:0更新日期:2014-08-28 12:29
本发明专利技术公开了一种实现查询理解的方法及装置,属于信息检索领域。所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在领域本体中查找与每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到每个查询关键词对应的匹配概念集;将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到匹配概念组合;根据得到的匹配概念组合从领域本体中获取对应的查询语义图,并根据获取到的查询语义图确定查询理解的结果。本发明专利技术通过在领域本体中查找与查询关键词及其同义词中每个词相匹配的概念,从而降低了对查询关键词的要求,增强了查询理解的能力,提高查询理解的鲁棒性和准确性。

【技术实现步骤摘要】
实现查询理解的方法及装置
本专利技术涉及信息检索领域,特别涉及一种实现查询理解的方法及装置。
技术介绍
随着互联网数据、企业数据等各种数据的爆炸性增长,信息检索成为了人们从大量的数据中获取目的信息的重要手段。在信息检索的过程中,为了能够向用户返回满足其真实需求的信息,需要应用查询理解技术对用户输入的查询关键词进行理解并识别用户的查询意图,从而能够根据查询理解的结果进行更准确的信息检索。现有技术在实现查询理解时,通常采用以下三种方法:方法一:在公开号为US7840538B2的专利文献《Discoveringqueryintentfromsearchqueriesandconceptnetworks》中提供的一种实现查询理解的方法,包括:预先对查询日志数据进行统计分析或机器学习;根据用户输入的查询关键词在统计分析的结果或机器学习的结果中获取查询理解的结果。方法二:在ESWC(EuropeanSemanticWebConference,欧洲语义网会议)上公开的文献《LightweightKeywordInterfacetoSemanticSearch》中提供的一种实现查询理解的方法,包括:在RDF(ResourceDescriptionFramework,资源描述框架)图包含的资源中查找查询关键词对应的资源,根据查找到的资源得到与查询关键词对应的查询语句,从而根据构造的查询语句得到查询理解的结果。其中,RDF图中包含多个资源描述,且每个资源描述是由多个语句构成,一个语句表示资源具有的一个属性,由资源、属性类型、属性值构成。方法三:在WISE(WebInformationSystemEngineering,网页信息系统工程)国际会议上公布的文献《EffectiveandEfficientKeywordQueryInterpretationUsingaHybridGraph》中提供了一种实现查询理解的方法,该方法包括:预先存储领域本体,该领域本体中包含特定领域的概念以及概念之间的语义路径;在领域本体包含的概念中查找与查询关键词相匹配的概念,得到每个查询关键词对应的匹配概念集,每个匹配概念集中包含有每个查询关键词相匹配的概念;将每个查询关键词对应的匹配概念集中包含的概念进行组合,得到匹配概念组合;根据得到的匹配概念组合从领域本体中获取对应的查询语义图,每个查询语义图中包含有每个匹配概念组合中的概念及概念之间的语义路径;将获取到的查询语义图作为查询理解的结果。例如,以获取到的查询关键词为flash和USA为例。在领域本体包含的概念中查找得到flash对应的匹配概念集{flashflood、flashlamp}和USA对应的匹配概念集{USA};将flash对应的匹配概念集和USA对应的匹配概念集中的概念进行组合后得到匹配概念组合{flashflood、USA}、{flashlamp、USA};根据匹配概念组合分别从领域本体中获取查询语义图{flashflood→USA}和{flashlamp→camera→USA};将获取到的查询语义图作为查询理解的结果。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:方法一在实现查询理解时是基于查询日志实现的,由于查询日志数据没有具体分类,在一些特定领域如企业、学科等领域的信息检索中,查询日志并不是一种可靠的数据源,从而导致最终得到的查询理解的结果不准确。方法二在实现查询理解时,都需要在查询关键词与RDF中的资源相匹配才能进一步得到查询理解的结果;而方法三在实现查询理解时也需要查询关键词与领域本体包含的概念相匹配才能进一步得到查询理解的结果,从而方法二和方法三对于用户输入的查询关键词要求较高。例如,当用户输入的查询关键词为“USA”时,如果RDF图包含的资源中或领域本体包含的概念中没有“USA”,只有“America”或者“UniteStates”的话,则无法得到相匹配的资源或概念。因此,上述实现查询理解的方法对用户的查询意图的理解能力较弱,导致查询理解的鲁棒性和准确性较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种实现查询理解的方法及装置。所述技术方案如下:一方面,提供了一种实现查询理解的方法,所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。优选地,所述将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合之前,还包括:获取所述每个查询关键词的上位词集、下位词集、兄弟词集,并获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;将所述匹配得分与预设阈值进行比较,并根据比较结果对所述每个概念进行筛选;所述将每个查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合,包括:将每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合。优选地,所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分,包括:根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值。优选地,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;所述根据获取到的查询语义图确定查询理解的结果,包括:根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。优选地,所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图,包括:根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重本文档来自技高网
...
实现查询理解的方法及装置

【技术保护点】
一种实现查询理解的方法,其特征在于,所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。

【技术特征摘要】
1.一种实现查询理解的方法,其特征在于,所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;获取所述每个查询关键词的上位词集、下位词集、兄弟词集,并获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;将所述匹配得分与预设阈值进行比较,并根据比较结果对所述每个概念进行筛选;将每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合;根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分,包括:根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值;所述sim()的计算公式为:其中,syn(a)∩syn(b)表示词a和词b中相同词形的部分的分值;syn(a)-syn(b)表示词a去掉词b后不同词形的部分的分值;syn(b)-syn(a)表示词b去掉词a后不同词形的部分的分值;0≤λ≤1。3.根据权利要求1至2任一权利要求所述的方法,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;所述根据获取到的查询语义图确定查询理解的结果,包括:根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。4.根据权利要求3所述的方法,其特征在于,所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图,包括:根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序,并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:所述其中,所述a为第一预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本的权重。5.根据权利要求1至2任一权利要求所述的方法,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;所述根据获取到的查询语义图确定查询理解的结果,包括:对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;将每个聚类簇包含的查询语义图进行合并,得到所述每个聚类簇对应的聚类查询语义图;根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述每个聚类簇对应的聚类查询语义图的权重;根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。6.根据权利要求5所述的方法,其特征在于,所述根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图,包括:根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序,并根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:所述其中,所述a'为第二预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。7.一种实现查询理解的装置,其特征在于,所述装置包括:第一获取模块,用于获取至少...

【专利技术属性】
技术研发人员:刘春辰李建强刘博
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1