一种查询处理方法、装置及设备制造方法及图纸

技术编号:12588932 阅读:40 留言:0更新日期:2015-12-24 13:52
本发明专利技术公开一种查询处理方法。该处理方法包括:从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。相应的,本发明专利技术还提供一种查询处理装置和处理设备。本发明专利技术提供的技术方案,能减少检索时间,提高查询响应速度,从而提升搜索引擎性能。

【技术实现步骤摘要】

本专利技术涉及移动互联网
,具体涉及一种查询处理方法、装置及设备
技术介绍
目前,互联网技术飞速发展,网络信息量不断增长,而搜索引擎通过构建有效的数据索引,能够帮助用户快捷地在海量数据中查询到需要的信息。但是随着用户对信息检索的需求越来越旺盛,对搜索引擎的性能要求也越来越高。对于搜索引擎的性能优化,可从不同方面考虑,例如对引擎本身进行架构调整,对索引结构进行优化等。目前大多数对搜索引擎的优化是从引擎本身出发来优化引擎的整体性能,与业务的关联小。但是,将业务的需求和特点与搜索引擎结合起来进行优化也能带来很好的优化效果。对于业务而言,搜索业务的需求一般比较明确:查询满足用户查询词(query)相关的文档,并将排序在前的结果如top k(k —般取值10)个结果展现给用户。一般而言,搜索业务的查询过程包含两个阶段:粗排阶段和精排阶段。粗排阶段,从检索查询词的倒排链取第一设定值(rank_size)个文档进行简单的分值计算(简称算分),挑选算分最高的第二设定值(rerank_size)个文档供下一轮精排使用,其中考虑响应时间因素,rank_size一般取值为几十万个。所谓倒排链,可理解为倒排索引,倒排索引是实现单词(term)-文档(document)矩阵的一种具体存储方式,搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表;精排阶段,从粗排结果所挑选出的算分最高的reranlsize个文档中,再进行精细的算分操作,其中rerank_size—般取值为几百个;最终,取精排算分最高的第三设定值(η)个文档作为最终返回给用户的查询结果。但是,上述查询处理方法,所需检索时间仍然比较长,查询响应速度仍有待提高。
技术实现思路
为解决上述技术问题,本专利技术提供一种查询处理方法、装置及设备,能减少检索时间,提高查询响应速度,从而提升搜索引擎性能。根据本专利技术的一个方面,提供一种查询处理方法,包括:从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。优选地,所述从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,包括:根据第η链生成第η+1链,其中,所述第η+1链对应的文档数小于第η链对应的文档数,η为自然数,其中η等于I时为原链,η大于I时为辅链。优选地,所述从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,包括:根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链。优选地,根据与查询词对应的原链生成文档数减少的第一辅链,根据所述第一辅链生成文档数减少的第二辅链,包括:将与查询词对应的原链中文档质量大于设定质量阈值的文档单独建立文档数减少的第一辅链;将所述第一辅链中有点击记录的文档单独建立文档数减少的第二辅链。优选地,所述根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,包括:根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。优选地,所述形成检索结果之后还包括:评估所述检索结果的质量。优选地,当评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。优选地,所述根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,包括:根据当前查询业务类别及当前查询词包括多个单词,将当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。根据本专利技术的另一个方面,提供一种查询处理装置,包括:辅链模块,用于从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;查询模块,用于根据当前查询业务类别及当前查询词选择所述辅链模块建立的与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。优选地,所述辅链模块包括:生成子模块,用于根据第η链生成第η+1链,其中,所述第η+1链对应的文档数小于第η链对应的文档数,η为自然数,其中η等于I时为原链,η大于I时为辅链;存储子模块,用于存储所述生成子模块生成的链。优选地,所述生成子模块包括:第一生成子模块,用于根据与查询词对应的原链生成文档数减少的第一辅链;第二生成子模块,用于根据所述第一生成子模块生成的第一辅链生成文档数减少的第二辅链。优选地,所述查询模块包括:第一查询子模块,用于根据当前查询业务类别及当前查询词的点击量大于设定点击阈值,选择与所述当前查询词对应的一条辅链进行文档检索形成检索结果;或,第二查询子模块,用于根据当前查询业务类别及当前查询词的点击量小于或等于设定点击阈值,选择与所述当前查询词对应的另一条辅链进行文档检索形成检索结果。优选地,所述查询模块还包括:评估子模块,用于评估所述第一查找子模块或所述第二查询子模块的检索结果的质量。优选地,所述查询模块还包括:第三查询子模块,用于当所述评估子模块评估所述检索结果的质量不满足预设检索需求时,选择所述原链进行文档检索形成检索结果。 优选地,所述装置还包括:频率特征模块,用于记录所述查询词中的单词的出现频率;所述查询模块根据当前查询业务类别及当前查询词包括多个单词,将所述频率特征模块记录的当前查询词中出现频率小于设定频率阈值的单词选择所述辅链进行文档检索形成检索结果,将其他单词选择所述原链进行文档检索形成检索结果。根据本专利技术的另一个方面,提供一种处理设备,包括:存储器,用于存储程序,处理器,用于执行所述存储器存储的以下程序:从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。可以发现,本专利技术实施例的技术方案,通过从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链,那么就可以根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果,由于辅链对应的文档数量比原链对应的文档数量要小,因此就可以减少检索文档数量,从而缩短检索时间,提高查询响应速度,从而提升搜索引擎性能。【附图说明】通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1是根据本专利技术的一个实施例的查询处理方法的示意性流程图;图2是根据本专利技术的一个实施例的查询处理方法的另一示意性流程图;图3是根据本专利技术的一个实施例的查询处理方法中建立辅链的示意性图;图4是本专利技术的一种查询处理装置的示本文档来自技高网
...

【技术保护点】
一种查询处理方法,其特征在于,包括:从与查询词对应的原链中筛选出文档数小于所述原链的文档数的文档以建立与所述查询词对应的至少一条辅链;根据当前查询业务类别及当前查询词选择与所述当前查询词对应的至少一条辅链进行文档检索形成检索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:王刚万明成
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1