一种查询修正方法及系统技术方案

技术编号:2833291 阅读:228 留言:0更新日期:2012-04-11 18:40
一种查询修正方法,其特征在于,包括:    利用检索资源预置语言模型;    调用相应的修正操作,对原始输入的每个查询词进行修正,得到对应每个查询词的多种表示,其中包括原始输入的表示;    根据每个查询词的多种表示,得到多种组合形式的词序列;    调用所述语言模型计算词序列出现的概率,并将出现概率高的词序列确定为查询建议结果。

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,特别是涉及搜索引擎中一种查询修正方法及系统
技术介绍
查询是指用户在使用搜索引擎时的输入,在此特指文字输入。查询是用户信息需求的表达,搜索引擎只有正确地“理解”用户的查询,才能够为用户提供精准的检索结果,为用户提供高质量的服务。但是,目前的搜索引擎在分析用户的查询时,准确性会受到几种因素的影响和制约,如单词拼写错误、词形错误、输入词不完整、中文同音词等等,使得搜索引擎无法正确“理解”用户意图,返回的检索结果不能满足用户需求。 现有的搜索引擎,如谷歌(Google)、有道、百度等,都非常重视查询处理方面的功能,提供了查询补全、拼写错误检查等查询修正功能。例如,在Google中输入“computer scien”,返回结果页面会提示“Do you meancomputerscience”,自动将单词补全,并且检索结果也是与“computer science”相关的信息。 但是,目前的搜索引擎中常用的查询修正方法都是单一或孤立的,或者能够进行“拼写检查”,或者能够实现“词形补全”,如果输入的查询中含有多处错误,现有的方法很难同时处理。例如,如果输入本文档来自技高网...

【技术保护点】
一种查询修正方法,其特征在于,包括:利用检索资源预置语言模型;调用相应的修正操作,对原始输入的每个查询词进行修正,得到对应每个查询词的多种表示,其中包括原始输入的表示;根据每个查询词的多种表示,得到多种组合形式的词序列;调用所述语言模型计算词序列出现的概率,并将出现概率高的词序列确定为查询建议结果。

【技术特征摘要】
1.一种查询修正方法,其特征在于,包括利用检索资源预置语言模型;调用相应的修正操作,对原始输入的每个查询词进行修正,得到对应每个查询词的多种表示,其中包括原始输入的表示;根据每个查询词的多种表示,得到多种组合形式的词序列;调用所述语言模型计算词序列出现的概率,并将出现概率高的词序列确定为查询建议结果。2.根据权利要求1所述的方法,其特征在于所述语言模型包括一元和/或多元语言模型。3.根据权利要求2所述的方法,其特征在于,所述二元语言模型的建立步骤包括对全部检索资源进行预处理,得到各词项;统计各词项在全部检索资源中的出现次数,其中包括一元词项和二元词项的出现次数;将全部一元词项和二元词项的出现次数代入下述公式进行计算P(w)=C(w)/C(*),表示一元词项的出现概率,其中C(w)表示一元词w出现的次数,表示全部一元词项的次数之和;表示在包含词wj的条件下词wi出现的概率,其中C(wi,wj)表示二元词wi和wj的共同出现次数,表示全部一元词项的次数之和,表示全部二元词项的次数之和。4.根据权利要求3所述的方法,其特征在于,所述调用语言模型计算词序列出现概率的步骤包括对应每个词序列S=w1w2…wn,将语言模型中相应的P(w)和P(wi|wj)值代入公式P(w1w2…wn)=P(w1)P(w2|w1)…P(wn|wn-1)计算该词序列出现的概率。5.根据权利要求3所述的方法,其特征在于,所述调用语言模型计算词序列出现概率的步骤包括步骤1,对第一个查询词,调用语言模型中P(w)的计算结果得到每种查询词表示的出现概率,并按照预定个数选取出现概率高的查询词表示;步骤2,对第二个查询词,利用公式P(w1w2)=P(w1)P(w2|w1)计算包含第一和第二查询词的词序列出现概率,并按照预定个数选取出现概率高的词序列;其中w1为步骤1中选出的第一个查询词表示,w2为第二个查询词的各种表示;按照步骤2依次对每个查询词,利用下述公式P(w1w2…wn)=P(w1)P(w2|w1)…P(wn|wn-1)计算词序列出现的概率,并最终得到预定个数的包含所有查询词的词序列S=w1w2…wn。6.根据权利要求1所述的方法,其特征在于,还包括将所述查询建议结果作为提示信息显...

【专利技术属性】
技术研发人员:高立琦刘挺
申请(专利权)人:北京金山软件有限公司北京金山数字娱乐科技有限公司哈尔滨工业大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1