处理查询请求的方法及装置制造方法及图纸

技术编号:11480937 阅读:83 留言:0更新日期:2015-05-20 14:57
本发明专利技术公开了一种处理查询请求的方法及装置,方法包括:接收到携带有关键词的查询请求后,根据所述关键词,获得与所述关键词相匹配的第一搜索结果集合;确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,所述精确匹配分值为搜索结果与所述关键词完全匹配的分值,所述泛化匹配分值为搜索结果与所述关键词非完全匹配的分值;根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值;按照所述最终匹配分值从大到小的顺序,对所述第一搜索结果集合中的搜索结果进行排序,得到并返回第二搜索结果集合。上述技术方案提升了搜索结果的排序效果。

【技术实现步骤摘要】
处理查询请求的方法及装置
本专利技术涉及网络查询技术,尤其涉及一种处理查询请求的方法及装置。
技术介绍
目前,各搜索引擎对关键词查询请求的处理,多数考虑了用户历史点击数据。通常,对关键词查询请求的处理基于精确匹配查询,即搜索引擎根据关键词查询请求进行搜索,得到搜索结果集合后,搜索引擎还会通过对用户历史点击数据的分析,提取出相关的历史搜索结果集合,得到与关键词完全匹配的精确匹配分值,并按照精确匹配分值调整搜索结果在搜索结果集合中的位置,以提高排序效果。但是,上述对关键词查询请求的处理方法基于精确匹配查询,当关键词偏冷门时,历史积累的点击数据偏少,使得排序结果由于缺少点击数据或存在较大的噪音,对排序效果的提升并不理想。
技术实现思路
本专利技术的目的在于提出一种处理查询请求的方法及装置,以提升搜索结果的排序效果。为达此目的,本专利技术采用以下技术方案:一种处理查询请求的方法,包括:接收到携带有关键词的查询请求后,根据所述关键词,获得与所述关键词相匹配的第一搜索结果集合;确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,所述精确匹配分值为搜索结果与所述关键词完全匹配的分值,所述泛化匹配分值为搜索结果与所述关键词非完全匹配的分值;根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值;按照所述最终匹配分值从大到小的顺序,对所述第一搜索结果集合中的搜索结果进行排序,得到并返回第二搜索结果集合。一种处理查询请求的装置,包括:请求接收单元,用于接收携带有关键词的查询请求;搜索单元,用于根据所述请求接收单元接收的查询请求中的关键词,获得与所述关键词相匹配的第一搜索结果集合;第一分值确定单元,用于确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,所述精确匹配分值为搜索结果与所述关键词完全匹配的分值,所述泛化匹配分值为搜索结果与所述关键词非完全匹配的分值;第二分值确定单元,用于根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值;排序单元,用于按照所述最终匹配分值从大到小的顺序,对所述第一搜索结果集合中的搜索结果进行排序,得到第二搜索结果集合;结果发送单元,用于返回所述第二搜索结果集合。上述技术方案提供的处理查询请求的方法及装置,通过确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,并根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值,按照最终匹配分值从大到小的顺序对搜索结果进行排序,增加了历史数据对搜索结果集合中搜索结果的排序的影响,从而使得搜索引擎返回的搜索结果集合的排序更加合理,提升了搜索结果的排序效果。附图说明图1是本专利技术实施例提供的一种处理查询请求的方法的流程图;图2是本专利技术实施例提供的一种处理查询请求的装置的结构示意图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。图1是本专利技术实施例提供的一种处理查询请求的方法的流程图。本实施例所示的方法可由搜索引擎实现。如图1所示,处理查询请求的方法包括:步骤11至步骤14。在步骤11中,接收到携带有关键词的查询请求后,根据所述关键词,获得与所述关键词相匹配的第一搜索结果集合。例如,搜索引擎接收到携带有关键词“搜索技术”的查询请求后,在线通过爬虫技术从海量网页中查找标题或正文中包含有关键词“搜索技术”的网页,并将这些标题或正文中包含有关键词“搜索技术”的网页的url作为搜索结果,得到搜索结果集合。其中,第一搜索结果集合与步骤14中的第二搜索结果集合,并无实际意义上第一和第二的限定,只是为了表示步骤11中的搜索结果集合与步骤14中的搜索结果集合不同。在步骤12中,确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,所述精确匹配分值为搜索结果与所述关键词完全匹配的分值,所述泛化匹配分值为搜索结果与所述关键词非完全匹配的分值。例如,确定所述第一搜索结果集合中每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,可包括:对于所述第一搜索结果集合中的每个搜索结果,获取相关的历史查询关键词集合,以及所述历史查询关键词集合中每个历史查询关键词的相关度分值,所述相关度分值为搜索结果满足用户查询需求的概率值;其中,相关度为通过分析同一关键词的用户历史查询和点击行为,衡量与关键词相关的搜索结果集合中每个搜素结果的相关程度。根据所述历史查询关键词集合中每个历史查询关键词的相关度分值,得到所述第一搜索结果集合中与所述历史查询关键词集合相关的搜索结果的精确匹配分值和泛化匹配分值。其中,精确匹配分值的作用是通过判断当前查询的关键词是否出现在离线相关的关键词集合即历史查询关键词集合中,如果出现,则使用对应的相关度作用于搜索结果的排序。泛化匹配分值的作用是通过判断当前查询的关键词是否都在离线相关的关键词集合即历史查询关键词集合中出现,或者当前查询的关键词与离线关键词即历史查询关键词比较相近,并使用对应的相关度作用于搜索结果的排序。示例性的,其中,获取相关的历史查询关键词集合,可包括:从第一历史搜索数据中获取相关的历史查询关键词集合,所述第一历史搜索数据由第二历史搜索数据反转得到;所述第二历史搜索数据包括所述历史查询关键词及与所述历史查询关键词相关的历史搜索结果集合,所述历史搜索结果集合中的历史搜索结果按照相关度分值从大到小的顺序排序,所述历史搜索结果的相关度分值通过以下公式得到:其中,所述score为所述历史搜索结果的相关度分值,DocViews为所述历史搜索结果被浏览的总数,p0-p10为权重参数,DocFirstClicks为所述历史搜索结果被第一次点击的总数,DocCliks为所述历史搜索结果被点击的总数,DocLastClicks为所述历史搜索结果被最后一次点击的总数,DocOnlyClicks为所述历史搜索结果仅被点击一次的总数,QueryTimes为所述历史查询关键词被查询的次数。其中,第一历史搜索数据和第二历史搜索数据可离线获得。历史搜索结果、历史查询关键词、相关度分值和历史点击数据等历史数据,可通过但不限于以下方式得到:通过数据挖掘的方法从www.soso.com、百度、搜狗(sogou)、360、谷歌(google)等搜索引擎的日志中挖掘出查询关键词的相关搜索结果集,并对每条搜索结果进行相关度打分。第二历史搜索数据不仅综合了历史搜索结果的第一次被点击次数,还综合了历史搜索结果仅被点击一次及最后一次被点击的次数,使得第二历史搜索数据中历史搜索结果的相关度,相对于现有的DBN(DynamicBayesianNetwork,动态贝叶斯网络)模型仅考虑历史搜索结果的第一次被点击次数得到的相关度更精确。并且,将公式(3)代入公式(1),可以得到其中,score1/(DocClicks+p7)表示自身点击率,score1/(QueryTimes+p9)表示整体点击率,可见第二历史搜索数据中的相关度分值不仅考虑了自身点击率还考虑了整体点击率,相对于dbn模型只考虑了自身点击率,没有本文档来自技高网...

【技术保护点】
一种处理查询请求的方法,其特征在于,包括:接收到携带有关键词的查询请求后,根据所述关键词,获得与所述关键词相匹配的第一搜索结果集合;确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,所述精确匹配分值为搜索结果与所述关键词完全匹配的分值,所述泛化匹配分值为搜索结果与所述关键词非完全匹配的分值;根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值;按照所述最终匹配分值从大到小的顺序,对所述第一搜索结果集合中的搜索结果进行排序,得到并返回第二搜索结果集合。

【技术特征摘要】
1.一种处理查询请求的方法,其特征在于,包括:接收到携带有关键词的查询请求后,根据所述关键词,获得与所述关键词相匹配的第一搜索结果集合;确定所述第一搜索结果集合中,每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值;根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值;按照所述最终匹配分值从大到小的顺序,对所述第一搜索结果集合中的搜索结果进行排序,得到并返回第二搜索结果集合;其中,确定所述第一搜索结果集合中每个搜索结果相对于所述关键词的精确匹配分值和泛化匹配分值,包括:对于所述第一搜索结果集合中的每个搜索结果,获取相关的历史查询关键词集合,以及所述历史查询关键词集合中每个历史查询关键词的相关度分值,所述相关度分值为搜索结果满足用户查询需求的概率值;根据所述历史查询关键词集合中每个历史查询关键词的相关度分值,得到所述第一搜索结果集合中与所述历史查询关键词集合相关的搜索结果的精确匹配分值和泛化匹配分值;其中,根据所述历史查询关键词集合中每个历史查询关键词的相关度分值,得到所述第一搜索结果集合中与所述历史查询关键词集合相关的搜索结果的精确匹配分值和泛化匹配分值,包括:当所述历史查询关键词集合中存在与所述查询请求中携带的关键词相同的历史查询关键词时,则将与所述查询请求中携带的关键词相同的历史查询关键词的相关度分值,作为所述第一搜索结果集合中与所述历史查询关键词集合相关的搜索结果的精确匹配分值;根据所述历史查询关键词集合中每个历史查询关键词的相关度分值,以及所述历史查询关键词集合中每个历史查询关键词与所述查询请求中携带的关键词之间的匹配程度分值,得到第一泛化匹配子分值和第二泛化匹配子分值;根据所述第一泛化匹配子分值和第二泛化匹配子分值,得到泛化匹配分值。2.根据权利要求1所述的方法,其特征在于,获取相关的历史查询关键词集合,包括:从第一历史搜索数据中获取相关的历史查询关键词集合,所述第一历史搜索数据由第二历史搜索数据反转得到;所述第二历史搜索数据包括所述历史查询关键词及与所述历史查询关键词相关的历史搜索结果集合,所述历史搜索结果集合中的历史搜索结果按照历史搜索结果的相关度分值从大到小的顺序排序,所述历史搜索结果的相关度分值通过以下公式得到:其中,所述score为所述历史搜索结果的相关度分值,DocViews为所述历史搜索结果被浏览的总数,p0-p10为权重参数,DocFirstClicks为所述历史搜索结果被第一次点击的总数,DocCliks为所述历史搜索结果被点击的总数,DocLastClicks为所述历史搜索结果被最后一次点击的总数,DocOnlyClicks为所述历史搜索结果仅被点击一次的总数,QueryTimes为所述历史查询关键词被查询的次数。3.根据权利要求1所述的方法,其特征在于,所述第一泛化匹配子分值通过下式得到:其中,i为所述历史查询关键词集合中历史查询关键词的编号,n为所述历史查询关键词集合中历史查询关键词的总数,Wi为所述历史查询关键词集合中第i个历史查询关键词的相关度分值,Pi为所述历史查询关键词集合中第i个历史查询关键词与所述查询请求中携带的关键词之间的匹配程度分值。4.根据权利要求1所述的方法,其特征在于,所述第二泛化匹配子分值通过下式得到:其中,j为所述查询请求中携带的关键词中的词的顺序编号,m为所述查询请求中携带的关键词中的词的总数,idfj为所述查询请求中携带的关键词中第j个词的逆向文件频率值,k为所述历史查询关键词集合中包含所述查询请求中携带的关键词中第j个词的历史查询关键词的编号,N为所述历史查询关键词集合中包含所述查询请求中携带的关键词中第j个词的历史查询关键词的总数,Wk为所述历史查询关键词集合中,包含所述查询请求中携带的关键词中第j个词的第k个历史查询关键词的相关度分值,Pk为所述历史查询关键词集合中,包含所述查询请求中携带的关键词中第j个词的第k个历史查询关键词,与所述查询请求中携带的关键词之间的匹配程度分值。5.根据权利要求1所述的方法,其特征在于,根据所述第一泛化匹配子分值和第二泛化匹配子分值,得到泛化匹配分值,包括:通过下式计算得到所述泛化匹配分值:score_g=α×score_p+β×score_c其中,score_g为所述泛化匹配分值,score_p为所述第一泛化匹配子分值,score_c为所述第二泛化匹配子分值,α和β为权重参数,且α+β=1。6.根据权利要求1-2任一项所述的方法,其特征在于,根据所述精确匹配分值和泛化匹配分值,得到所述第一搜索结果集合中每个搜索结果相对于所述关键词的最终匹配分值,包括:通过下式计算得到所述最终匹配分值:score_click=ε×score_s+δ×score_g其中,score_click为所述最终匹配分值,score_s为所述精确匹配分值,score_g为所述泛化匹配分...

【专利技术属性】
技术研发人员:郑枫耀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1