对搜索系统的查询串改写效果进行评测的方法和装置制造方法及图纸

技术编号:8934498 阅读:150 留言:0更新日期:2013-07-18 03:04
本发明专利技术公开了一种对搜索系统的查询串改写效果进行自动评测的方法和装置,方法包括:分别对查询串改写前后的检索文本进行搜索,得到相应的搜索结果;从查询串改写前的搜索结果中提取统一资源定位符(URL)集合A,从查询串改写后的搜索结果中提取URL集合B,并确定搜索结果的参照URL集合C;计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F;比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。所述装置包括:搜索触发模块、URL集合提取模块、参照URL集合确定模块、相似度计算模块、以及改写效果判断模块。利用本发明专利技术,可以降低查询串改写评测的成本,提高评测效率。

【技术实现步骤摘要】

本专利技术涉及数据搜索处理技术,尤其涉及一种对搜索系统的查询串改写效果进行评测的方法和装置
技术介绍
搜索引擎是指根据一定的搜索方案、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的数据处理系统。查询串改写(即query 改写,也称为 query rewriting, query alteration或queryreformulation)是在搜索引擎中,对用户输入的查询串(query)即检索文本进行改变和扩展,以达到更好的接近用户检索意图的一种技术方法。查询串改写处理方案的主要技术效果是:将用户的检索文本转化为对搜索引擎更适合的查询串,以提高搜索引擎的搜索效率和搜索结果的准确性。在应用查询串改写这项技术后,业界需要对查询串改写效果进行评测,以检查每种查询串改写操作是否真的提高了搜索结果的准确性,是否能提高搜索结果与用户原有查询意图的相关度。目前,业界对查询串改写效果进行评测的现有方式主要是一种简单的评测系统加人力来实现,即:借助人力对改写前的搜索结果和改写后的搜索结果进行打分标注,将每条搜索结果标注的分数输入评测系统进行汇总相加,最后得到查询串改写前和查询串改写后的两个分值,并对两个分值进行比较来判断查询串改写的改写效果。现有技术的缺点在于:由于采用人工标注评测,因此需要耗费大量人力,且标注评测的周期很长,导致评测成本较高、评测效率较低,不利于查询串改写算法的快速迭代。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种对搜索系统的查询串改写结果进行评测的方法和装置,提高评测效率。本专利技术的技术方案是这样实现的:一种对搜索系统的查询串改写效果进行评测的方法,包括:分别对查询串改写前后的检索文本进行搜索,得到相应的搜索结果;从查询串改写前的搜索结果中提取统一资源定位符URL集合A,从查询串改写后的搜索结果中提取URL集合B,并确定搜索结果的参照URL集合C ;计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F ;比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。一种对搜索系统的查询串改写效果进行评测的装置,包括:搜索触发模块,用于分别对查询串改写前后的检索文本进行搜索,得到相应的搜索结果;URL集合提取模块,用于从查询串改写前的搜索结果中提取URL集合A,从查询串改写后的搜索结果中提取URL集合B ;参照URL集合确定模块,用于确定搜索结果的参照URL集合C ;相似度计算模块,用于计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F ;改写效果判断模块,用于比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。与现有技术相比,本专利技术以查询串改写前后搜索结果的URL特征作为依据,由计算机自动提取出统一资源定位符(URL)集合分别与参照URL集合进行相似度计算,并自动按照计算出的相似度判断查询串改写的效果,整个过程可以由具有数据处理能力的设备自动执行,因此节省了大量的人力,降低了查询串改写的评测成本,提高了评测效率。附图说明图1本专利技术所述对搜索系统的查询串改写结果进行评测方法的一种流程图2为一种更为形象的描述本专利技术所述方法的一种示意图3为所述对搜索系统的查询串改写效果进行评测装置的一种组成示意图4为所述相似度计算模块的一种内部组成示意图。具体实施方式下面结合附图及具体实施例对本专利技术再作进一步详细的说明。图1本专利技术所述对搜索系统的查询串改写结果进行评测方法的一种流程图。参见图1,该流程包括:步骤101、分别对查询串改写前后的查询串(即检索文本)进行搜索,得到相应的搜索结果。此处的具体方法是将查询串改写前的检索文本和查询串改写后的检索文本分别输入到搜索系统的搜索引擎进行搜索,得到搜索引擎对应返回的两部分搜索结果,每部分搜索结果包括多条记录,每条记录包括URL、标题、摘要等信息。步骤102、从查询串改写前的搜索结果中提取URL集合A,从查询串改写后的搜索结果中提取URL集合B,并确定搜索结果的参照URL集合C。此处具体的从搜索结果中提取URL的方法可以采用现有成熟的内容提取技术,本专利技术对此不再赘述。但是需要说明的是,本专利技术需要对URL集合中的向量数目有具体的约束,一般是提取搜索结果中的前N条记录对应的URL,简称为前N条URL。即:从所述查询串改写前的搜索结果中提取前N个URL并按顺序组成集合A ;所述从查询串改写后的搜索结果中提取URL集合B具体为:从所述查询串改写后的搜索结果中提取前N个URL并按顺序组成集合B ;同时,所述确定搜索结果的参照URL集合C中的向量个数也是N个,该N个URL排序组成集合C。在确定所述参照集合C时,可以利用已优化的搜索引擎(即本专利技术所评测的搜索系统以外的其它搜索引擎)对所述检索文本进行搜索,从返回的搜索结果中提取前N个URL并按顺序组成集合C。步骤103、计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F。在本步骤中,计算所述两个目标URL集合(即URL集合A和URL集合C,或者所述URL集合B和URL集合C)之间相似度时需要考虑集合中的URL的内容重复度和URL所处的位置。在搜索引擎中,排序靠前的记录往往应该有更高的权重,因此本专利技术可以预设一个位置加权表,其中记录URL集合中不同位置对应的加权值,所述位置越靠前其对应加权值越闻。一种实施例中的具体的计算相似度f和F的方法可以是:确定所述两个目标URL集合(即URL集合A和URL集合C,或者所述URL集合B和URL集合C)中不同位置的URL的重复度,并根据预设的位置加权表对所述URL重复度进行该位置对应的加权计算,所述位置越靠前其对应加权值越高;之后根据所述加权后的重复度确定整体的相似度,例如在一种实施方式中可以将各个位置处的经过加权的URL重复度相加,得到整体的相似度。此夕卜,由于搜索引擎中的处于第一位置的搜索结果往往比较重要,因此在本专利技术进一步的实施例中,在计算所述相似度f和相似度F时,进一步包括:当所述两个目标URL集合中的排名第一的位置处的URL重复时,对该位置处的重复度进行额外加权。图2为一种更为形象的描述本专利技术所述方法的一种示意图,其中Q为查询串改写前的检索文本,Q’为查询串改写后的检索文本,通过对其对应搜索结果提取URL,得到URL集合A和URL集合B,并与所述参照URL集合C进行对比计算相似度,分别得到相似度F和相似度f。步骤104、比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。在一种具体的实施例中,所述判断出的查询串改写的改写效果为变好、变差、以及无变化二种。判断查询串改写的改写效果的具体方法可以为:比较所述相似度f和相似度F,当F大于f时,判定查询串改写的改写效果为变好;当F小于f时,判定查询串改写的改写效果为变差;当F = f时,判定查询串改写的改写效果无变化。或者,判断查询串改写的改写效果的具体方法还可以为:比较所述相似度f和相似度F,当(F_f)/f > threashold本文档来自技高网...

【技术保护点】
一种对搜索系统的查询串改写效果进行评测的方法,其特征在于,包括:分别对查询串改写前后的检索文本进行搜索,得到相应的搜索结果;从查询串改写前的搜索结果中提取统一资源定位符URL集合A,从查询串改写后的搜索结果中提取URL集合B,并确定搜索结果的参照URL集合C;计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F;比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵海舟辛国茂
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1