扩展查询方法及系统技术方案

技术编号:9667907 阅读:160 留言:0更新日期:2014-02-14 06:20
本申请提供了一种扩展查询方法,包括:获取用户输入的查询词;确定查询词的归一化查询词;将归一化查询词作为查询词的扩展词进行扩展查询;其中,查询词的归一化查询词采用如下方式确定:获取用户搜索日志中的session信息;获取单个session内出现的所有查询词,统计各查询词的投票数;确定单个查询词和目标查询词的投票相似度;根据投票相似度确定单个查询词和目标查询词的关联度;根据单个查询词和目标查询词的关联度确定目标查询词的归一化查询词。本申请还提供了一种实现前述方法的扩展查询系统。本申请的扩展查询方法及系统,能够准确的对查询词进行扩展,减少检索次数,提高系统响应速度和处理效率。

【技术实现步骤摘要】
扩展查询方法及系统
本申请涉及计算机数据处理
,特别是涉及一种扩展查询方法及系统。
技术介绍
随着网络技术的发展,搜索引擎得到了不断的完善,通过搜索引擎可以从互联网上获取各种信息。搜索引擎是当前互联网帮助用户快速获取信息的主要途径之一。用户提交一个查询词(Query)给搜索引擎,搜索引擎返回给用户与该查询词相关的搜索结果。在电子商务网站中,特别是对于大型的电子商务网站来说,因为所涉及的商品数量较大,用户往往也需要通过查询词的方式进行搜索来查找其所需要的商品。因为用户输入的查询词多是根据自己的意愿组合而成,这可能会出现能够与查询词匹配的结果过少或者过多的情况,查询结果准确度不高的情况,往往需要反复搜索。为此搜索引擎往往会对查询词进行扩展或者改写,丰富查询信息,智能的对用户输入的查询词进行优化,从而提高搜索结果的准确性,同时降低用户因为反复搜索而给服务器带来的压力。常见的查询词扩展方法有在查询端和索引端进行扩展。其中,在查询端扩展主要包括对查询词进行增词、换词和去词。即在用户输入的查询词的基础上增加、替换或者去掉其中的某一个字或者某个部分。例如,用户输入的查询词为“诺基亚手机”,那么对查询词进行增词扩展则可以是“诺基亚N95手机”等等;进行去词扩展则可以是“诺基亚”或者“手机”;进行换词扩展则可以是“三星手机”或者“苹果手机”等等。在索引端扩展主要是在索引端对查询词进行同义词扩展。一般通过常规的数据挖掘等方式获取到同义词集合,当某个词出现时,则从同义词集合中提取其他同义词进行扩展。为了保证搜索结果与查询词的准确性,在扩展查询时会采用查询端和索引端同时扩展的方式,即查询端和索引端分别对查询词进行扩展后得到各自的扩展词,然后选取相同的扩展词所对应的结果作为扩展结果。在实际处理时,搜索引擎通常会按照一定的顺序逐个选取查询端的扩展词进行检索,并与索引端的扩展词进行匹配,若能够匹配上,则返回该扩展词的检索结果。在此过程中,可能出现,查询端的扩展词有多个,索引端的扩展词有一个,若按照顺序,查询端的最后一个扩展词与索引端的扩展词匹配,那么搜索引擎无疑需要进行多次检索查询,直到用最后一个扩展词检索查询时才能够与索引端的扩展词匹配,这就增加了搜索引擎无效检索的次数以及系统返回搜索结果的时间,降低系统响应速度,并造成对系统资源的占用。
技术实现思路
本申请提供一种扩展查询方法及系统,能够解决利用查询词查询时,搜索引擎反复检索匹配查询词而导致检索次数增加以及占用系统过多资源,影响系统响应速度和效率的问题。为了解决上述问题,本申请公开了一种扩展查询方法,包括以下步骤:获取用户输入的查询词;根据所述查询词确定所述查询词的归一化查询词;将所述归一化查询词作为所述查询词的扩展词进行扩展查询;其中,所述查询词的归一化查询词采用如下方式确定:获取用户搜索日志中的session信息;获取单个session内出现的所有查询词,统计各查询词的投票数,在所述单个session内,按照各查询词出现的先后顺序,某个查询词之前的任何一个查询词到该查询词都记为一次投票;根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度;根据所述投票相似度确定单个查询词和目标查询词的关联度;根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询ο进一步地,所述目标查询词在所有session内的总投票数采用如下方式统计:获取包含有目标查询词的session ;统计所述目标查询词在每个session内的投票数;将所述每个session内的投票数累加得到所述目标查询词的总投票数。进一步地,所述单个查询词对目标查询词的投票数采用如下方式统计:获取同时包含单个查询词和目标查询词的session ;判断所述session内,该单个查询词对目标查询词是否有投票,若是,则选取所述session ;统计所有被选取session的数量,得到所述单个查询词对目标查询词的投票数。进一步地,所述确定单个查询词和目标查询词的投票相似度包括:将所述单个产品对单个查询词对目标查询词的投票数占目标查询词的总投票数的比例作为所述单个查询词和目标查询词的投票相似度。进一步地,所述确定单个查询词和目标查询词的投票相似度包括:确定对目标查询词的每个投票的权重和基数;根据所述权重和基数计算每个投票的得分;将单个查询词对目标查询词的投票总得分占所有查询词对目标查询词的投票总得分的比例作为单个查询词和目标查询词的投票相似度。进一步地,所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括:设定归一化查询词阈值,若单个查询词和目标查询词的关联度值超过所述归一化产品阈值,则确定所述单个查询词为目标查询词的归一化查询词。进一步地,所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括:将归一化查询词类别分为同义归一化查询词、相关归一化查询词和扩展归一化查询词三个类别;按照关联度值由大到小设定所述三个类别各自的取值范围;将所述单个查询词和目标查询词的关联度所属的取值范围对应的类别作为所述单个查询词和目标查询词的细化类别。进一步地,所述方法在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括:获取用户搜索日志中搜索结果的点击信息;根据所述点击信息中提取包含有目标查询词的搜索结果;根据所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数确定单个查询词和目标查询词的点击相似度;所述确定单个查询词和目标查询词的关联度包括:根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度。进一步地,所述根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度包括:将投票相似度和点击相似度中的较大值作为单个查询词和目标查询词的关联度;或确定投票相似度和点击相似度的权重;根据所述投票相似度和点击相似度和各自的权重按照预定规则计算得到单个查询词和目标查询词的关联度。进一步地,在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括:获取服务器中存储的卖家数据,所述卖家数据为卖家对产品进行描述时所确定的产品描述信息;解析所述卖家数据,提取其中的查询词以及查询词的特征词;根据单个查询词和目标查询词的特征词确定特征相似度;所述根据所述投票相似度确定单个查询词和目标查询词的关联度包括:根据所述投票相似度和特征相似度确定单个查询词和目标查询词的关联度。进一步地,所述根据单个查询词和目标查询词的特征词确定特征相似度包括:计算每个特征词的特征值,所述特征值根据特征词及对应的查询词的点互信息计算得到;根据特征值计算单个查询词和目标查询词的特征相似度。进一步地,所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词之前还包括:确定单个查询词和目标查询词的语义相似度和/或类目相似度;所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括:根据所述单个查询词和目标查询词的关联度和语义相似度确定所述目标查询词的归一化查询词;或根据所述单个查询词和目标查询词的关联度和类目相似度确定所述目本文档来自技高网
...
扩展查询方法及系统

【技术保护点】
一种扩展查询方法,其特征在于,包括以下步骤:获取用户输入的查询词;根据所述查询词确定所述查询词的归一化查询词;将所述归一化查询词作为所述查询词的扩展词进行扩展查询;其中,所述查询词的归一化查询词采用如下方式确定:获取用户搜索日志中的session信息;获取单个session内出现的所有查询词,统计各查询词的投票数,在所述单个session内,按照各查询词出现的先后顺序,某个查询词之前的任何一个查询词到该查询词都记为一次投票;根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度;根据所述投票相似度确定单个查询词和目标查询词的关联度;根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词。

【技术特征摘要】
1.一种扩展查询方法,其特征在于,包括以下步骤: 获取用户输入的查询词; 根据所述查询词确定所述查询词的归一化查询词; 将所述归一化查询词作为所述查询词的扩展词进行扩展查询; 其中,所述查询词的归一化查询词采用如下方式确定: 获取用户搜索日志中的session信息; 获取单个session内出现的所有查询词,统计各查询词的投票数,在所述单个session内,按照各查询词出现的先后顺序,某个查询词之前的任何一个查询词到该查询词都记为一次投票; 根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度; 根据所述投票相似度确定单个查询词和目标查询词的关联度; 根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词。2.如权利要求1所述的扩展查询方法,其特征在于,所述目标查询词在所有session内的总投票数采用如下方式统计: 获取包含有目标查询词的session ; 统计所述目标查询词在每个session内的投票数; 将所述每个session内的投票数累加得到所述目标查询词的总投票数。3.如权利要求1所述的扩展查询方法,其特征在于,所述单个查询词对目标查询词的投票数采用如下方式统计: 获取同时包含单个查询词和目标查询词的session ; 判断所述session内,该单个查询词对目标查询词是否有投票,若是,则选取所述session ; 统计所有被选取session的数量,得到所述单个查询词对目标查询词的投票数。4.如权利要求1所述的扩展查询方法,其特征在于,所述确定单个查询词和目标查询词的投票相似度包括: 将所述单个产品对单个查询词对目标查询词的投票数占目标查询词的总投票数的比例作为所述单个查询词和目标查询词的投票相似度。5.如权利要求1所述的扩展查询方法,其特征在于,所述确定单个查询词和目标查询词的投票相似度包括: 确定对目标查询词的每个投票的权重和基数; 根据所述权重和基数计算每个投票的得分; 将单个查询词对目标查询词的投票 总得分占所有查询词对目标查询词的投票总得分的比例作为单个查询词和目标查询词的投票相似度。6.如权利要求1所述的扩展查询方法,其特征在于,所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括: 设定归一化查询词阈值,若单个查询词和目标查询词的关联度值超过所述归一化产品阈值,则确定所述单个查询词为目标查询词的归一化查询词。7.如权利要求6所述的扩展查询方法,其特征在于,所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括: 将归一化查询词类别分为同义归一化查询词、相关归一化查询词和扩展归一化查询词三个类别; 按照关联度值由大到小设定所述三个类别各自的取值范围; 将所述单个查询词和目标查询词的关联度所属的取值范围对应的类别作为所述单个查询词和目标查询词的细化类别。8.如权利要求1所述的扩展查询方法,其特征在于,所述方法在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括: 获取用户搜索日志中搜索结果的点击信息; 根据所述点击信息中提取包含有目标查询词的搜索结果; 根据所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数确定单个查询词和目标查询词的点击相似度; 所述确定单个查询词和目标查询词的关联度包括:根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度。9.如权利要求8所述的扩展查询方法,其特征在于,所述根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度包括: 将投票相似度和点击相似度中的较大值作为单个查询词和目标查询词的关联度;或 确定投票相似度和点击相似度的权重;根据所述投票相似度和点击相似度和各自的权重按照预定规则计算得到单个查询词和目标查询词的关联度。10.如权利要求1所述的扩展查询方法,其特征在于,在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括: 获取服务器中存储的卖家数据,所述卖家数据为卖家对产品进行描述时所确定的产品描述信息; 解析所述卖家数据,提取其中的查询词以及查询词的特征词; 根据单个查询词和目标查询词的特征词确定特征相似度; 所述根据所述投票相似度确定单个查询词和目标查询词的关联度包括:根据所述投票相似度和特征相似度确定单个查询词和目标查询词的关联度。11.如权利要求10所述的扩展查询方法,其特征在于,所述根据单个查询词和目标查询词的特征词确定特征相似度包括: 计算每个特征词的特征值,所述特征值根据特征词及对应的查询词的点互信息计算得到; 根据特征值计算单个查询词和目标查询词的特征相似度。12.如权利要求1至11任一项所述的扩展查询方法,其特征在于,所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词之前还包括:确定单个查询词和目标查询词的语义相似度和...

【专利技术属性】
技术研发人员:朱力董静黄云平
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1