【技术实现步骤摘要】
实现查询理解的方法及装置
本专利技术涉及信息检索领域,特别涉及一种实现查询理解的方法及装置。
技术介绍
随着互联网数据、企业数据等各种数据的爆炸性增长,信息检索成为了人们从大量的数据中获取目的信息的重要手段。在信息检索的过程中,为了能够向用户返回满足其真实需求的信息,需要应用查询理解技术对用户输入的查询关键词进行理解并识别用户的查询意图,从而能够根据查询理解的结果进行更准确的信息检索。现有技术在实现查询理解时,通常采用以下三种方法:方法一:在公开号为US7840538B2的专利文献《Discoveringqueryintentfromsearchqueriesandconceptnetworks》中提供的一种实现查询理解的方法,包括:预先对查询日志数据进行统计分析或机器学习;根据用户输入的查询关键词在统计分析的结果或机器学习的结果中获取查询理解的结果。方法二:在ESWC(EuropeanSemanticWebConference,欧洲语义网会议)上公开的文献《LightweightKeywordInterfacetoSemanticSearch》中提供的一种实现查询理解的方法,包括:在RDF(ResourceDescriptionFramework,资源描述框架)图包含的资源中查找查询关键词对应的资源,根据查找到的资源得到与查询关键词对应的查询语句,从而根据构造的查询语句得到查询理解的结果。其中,RDF图中包含多个资源描述,且每个资源描述是由多个语句构成,一个语句表示资源具有的一个属性,由资源、属性类型、属性值构成。方法三:在WISE(WebInforma ...
【技术保护点】
一种实现查询理解的方法,其特征在于,所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;将每个查询关键词对应的匹配概念集中的概念与其他查询关键词对应的匹配概念集中的概念进行组合,得到至少一个匹配概念组合;根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。
【技术特征摘要】
1.一种实现查询理解的方法,其特征在于,所述方法包括:获取至少一个查询关键词,并获取每个查询关键词的同义词;在预先存储的至少一个领域本体中查找与所述每个查询关键词及其同义词组成的词集中的每个词相匹配的概念,得到所述每个查询关键词对应的匹配概念集;获取所述每个查询关键词的上位词集、下位词集、兄弟词集,并获取所述每个查询关键词对应的匹配概念集中的每个概念的上位词集、下位词集、兄弟词集;根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分;将所述匹配得分与预设阈值进行比较,并根据比较结果对所述每个概念进行筛选;将每个查询关键词对应的匹配概念集中筛选后的概念进行组合,得到至少一个匹配概念组合;根据所述至少一个匹配概念组合从所述至少一个领域本体中获取对应的至少一个查询语义图,并根据获取到的查询语义图确定查询理解的结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述每个查询关键词的上位词集、下位词集、兄弟词集和所述每个概念的上位词集、下位词集、兄弟词集计算所述每个概念与所述每个查询关键词之间的匹配得分,包括:根据以下公式计算所述每个概念与所述每个查询关键词之间的匹配得分:Scorematch(cj,ki)=αsim((cj)f,(ki)f)+βsim((cj)s,(ki)s)+γsim((cj)b,(ki)b);其中,α+β+λ=1,所述ki为m个查询关键词中第i个查询关键词,所述cj为ki对应的匹配概念集Ci中的第j个概念,所述(cj)f为cj的上位词集,所述(ki)f为ki的上位词集,所述(cj)s为cj的下位词集,所述(ki)s为ki的下位词集,所述(cj)b为cj的兄弟词集,所述(ki)b为ki的兄弟词集,所述sim()用于计算相似程度值;所述sim()的计算公式为:其中,syn(a)∩syn(b)表示词a和词b中相同词形的部分的分值;syn(a)-syn(b)表示词a去掉词b后不同词形的部分的分值;syn(b)-syn(a)表示词b去掉词a后不同词形的部分的分值;0≤λ≤1。3.根据权利要求1至2任一权利要求所述的方法,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;所述根据获取到的查询语义图确定查询理解的结果,包括:根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图;根据选取的第一预设数量的查询语义图中的每个查询语义图的权重对选取的第一预设数量的查询语义图进行排序,并将排序后的查询语义图作为查询理解的结果。4.根据权利要求3所述的方法,其特征在于,所述根据预先计算的获取到的每个查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从获取到的查询语义图中选取第一预设数量的查询语义图,包括:根据预先计算的从多个领域本体的每个领域本体获取到的每个查询语义图的权重分别对从多个领域本体的每个领域本体中获取到的查询语义图进行排序,并根据以下公式从获取到的查询语义图中选取第一预设数量的查询语义图:所述其中,所述a为第一预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk为从n个领域本体的第k个领域本体排序后的查询语义图中选取的排序为前sk的查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本的权重。5.根据权利要求1至2任一权利要求所述的方法,其特征在于,所述领域本体的个数为多个,所述获取到的查询语义图为从多个领域本体的每个领域本体中获取到的查询语义图;所述根据获取到的查询语义图确定查询理解的结果,包括:对从多个领域本体的每个领域本体中获取到的查询语义图进行聚类,得到至少一个聚类簇,每个聚类簇至少包含一个查询语义图;将每个聚类簇包含的查询语义图进行合并,得到所述每个聚类簇对应的聚类查询语义图;根据预先计算的每个聚类簇包含的查询语义图中每个查询语义图的权重确定所述每个聚类簇对应的聚类查询语义图的权重;根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图;根据选取的第二预设数量的聚类查询语义图中每个聚类查询语义图的权重对选取的第二预设数量的聚类查询语义图进行排序,并将排序后的聚类查询语义图作为查询理解的结果。6.根据权利要求5所述的方法,其特征在于,所述根据每个聚类簇对应的聚类查询语义图的权重和预先分配的多个领域本体中每个领域本体的权重从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图,包括:根据从每个领域本体中获取到的每个聚类簇对应的聚类查询语义图的权重分别对从所述每个领域本体中获取到的每个聚类簇对应的聚类查询语义图进行排序,并根据以下公式从每个聚类簇对应的聚类查询语义图中选取第二预设数量的聚类查询语义图:所述其中,所述a'为第二预设数量,所述n为领域本体的个数,所述n为大于1的整数,所述top-sk'为从n个领域本体的第k个领域本体排序后的聚类查询语义图中选取的排序为前sk'的聚类查询语义图的个数,所述ωk为预先分配的第k个领域本体的权重,所述ωi为预先分配的第i个领域本体的权重。7.一种实现查询理解的装置,其特征在于,所述装置包括:第一获取模块,用于获取至少...
【专利技术属性】
技术研发人员:刘春辰,李建强,刘博,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。