数据搜索方法及设备技术

技术编号:8215636 阅读:139 留言:0更新日期:2013-01-17 13:16
本申请公开了一种数据搜索方法及设备,以解决基于采用现有技术处理后的搜索关键词难以得到搜索结果的问题。方法包括:确定组成输入的搜索关键词的关键词单元;确定由关键词单元所组成的第一关键词单元组合;从关键词单元组合与标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合对应的标识;根据所述对应的标识,从所述相匹配的关键词单元组合中确定对应同一标识的关键词单元组合;并针对所述相匹配的关键词单元组合对应的每一标识,确定对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。

【技术实现步骤摘要】

本申请涉及数据搜索
,尤其涉及一种数据搜索方法及设备
技术介绍
基于搜索关键词进行检索,是指预先针对数据建立索引,然后再由搜索引擎服务器根据用户输入的搜索关键词(也称查询关键词,即query),从建立的索引中搜索与query相匹配的索引,并将该索引所对应的数据呈现给用户。在实际应用中,即使存在与用户欲搜索的数据相匹配的索弓丨,但由于用户输入的query具有随意性、不规范性的特性,所以可能出现虽然用户在query中表达出了欲搜索内容的含义,但由于该query不规范,导致搜索引擎仍然无法从索引中找到与该query匹配的 索引,从而最终无法搜索到相应的搜索结果。针对该情况,现有技术中有方案提出对用户输入的query进行一定处理后再进行搜索的思想。比如,目前现有技术就提供了一种在搜索前对query进行处理的方案。该方案的核心思想在于,通过利用与query所包含的某词语含义相近的且比较规范的同义词或者利用与query所包含的该词语有一定相关关系且比较规范的相关词,替换query相应的词语,或者利用一些具体的词对query所包含的一些不规范的简化词进行扩展说明,使得处理后的query能具备一定的规范性,从而搜索引擎能够搜索到与处理后的query相匹配的索引,进而得到相应的搜索结果。根据现有技术提供的上述方案可知,其是以尽可能完整准确地表达用户的意图为目的对query进行处理,然而,这样的方案在实际应用中被证明存在下述缺陷采用同义词替换的方式无法从实质上改变query的含义,因此仍然可能出现无法得到搜索结果的问题;而对query进行扩展说明的方式会导致query包含的词更多,而基于包含更多词的query进行搜索会导致更难搜索到相应的索引,从而也可能无法得到搜索结果O
技术实现思路
本申请实施例提供一种数据搜索方法与设备,用以解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。本申请实施例采用以下技术方案一种数据搜索方法,包括确定组成输入的搜索关键词的关键词单元;并根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;以及从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;以及根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;并针对所述相匹配的关键词单元组合对应的每一标识,分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;以及从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。可选的,从确定的搜索关键词中确定一个搜索关键词,具体包括根据预先设置的用于衡量关键词单元表意能力的得分数据,分别确定所述确定的搜索关键词中各搜索关键词的得分;以及根据确定的各搜索关键词的得分,从确定的搜索关键词中确定一个搜索关键词。可选的,根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合,具体包括按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则,逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识;并在每次抽取出标识且判断出相邻两次抽取出的标识相同 时,记录抽取的标识所对应的关键词单元组合,直至判断出相邻两次抽取的标识不同时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合;删除记录的关键词单元组合,并记录在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合;以及重复执行上述三个步骤,直至满足抽取结束条件时,从记录的关键词单元组合中确定对应于同一标识的关键词单元组合,并删除记录的关键词单元组合。可选的,所述抽取结束条件为所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。可选的,上述方法还包括对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录;以及所述抽取结束条件为确定记录的次数大于预定次数阈值。一种数据搜索设备,包括关键词单元确定单元,用于确定组成输入的搜索关键词的关键词单元;第一组合确定单元,用于根据预设的关键词单元组合方式,确定由关键词单元确定单元确定的关键词单元所组成的第一关键词单元组合;组合与标识确定单元,用于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一组合确定单元确定的第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;第二组合确定单元,用于根据组合与标识确定单元确定的所述相匹配的关键词单元组合所对应的标识,从组合与标识确定单元确定的确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;第一搜索关键词确定单元,用于针对组合与标识确定单元确定的所述相匹配的关键词单元组合对应的每一标识,分别确定由第二组合确定单元确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;第二搜索关键词确定单元,用于从第一搜索关键词确定单元确定的搜索关键词中确定一个搜索关键词;数据搜索单元,用于根据第二搜索关键词确定单元确定的搜索关键词搜索数据。本申请实施例的有益效果如下通过执行本申请实施例提供的方案,可以实现对组成输入的搜索关键词的关键词单元的省略,从而基于省略了关键词单元后的搜索关键词进行搜索就更容易得到搜索结果,解决可基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。附图说明图I为本申请实施例提供的一种数据搜索方法的具体流程示意图;图2为本申请实施例中构建倒排链的具体流程示意图;图3为本申请实施例中Online计算与搜索子过程的具体实现流程示意图;图4为本申请实施例中提供的一种用于确定构成“共现关系”的key的方式的实现流程示意图;图5为本申请实施例提供的一种数据搜索设备的具体结构示意图。具体实施方式 为了解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题,本申请实施例提供了一种数据搜索方案。该数据搜索方案的基本思路在于,通过对组成输入的搜索关键词的关键词单兀进行省略,并基于省略了关键词单兀后的搜索关键词进行搜索,从而更容易得到搜索结果。以下结合附图,对本申请实施例提供的方案进行详细说明。本申请实施例首先提供一种如图I所示的数据搜索方法,该方法的具体流程主要包括下述步骤步骤11,确定组成输入的搜索关键词的关键词单元;—般地,通过对用户输入的搜索关键词执行分词处理,就可以得到组成输入的搜索关键词的各个关键词单元。这里的关键词单元一般包括字、词或词组(词组是指由两个以上的词语组合而成的语法单位)。比如,通过对输入的一个搜索关键词“世界卫生联合组织”执行分词处理,就可以得到组成该搜索关键词的关键词单元,包括“世界”、“卫生”、“联合”、“组织”。步骤12,根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;本申请实本文档来自技高网
...

【技术保护点】
一种数据搜索方法,其特征在于,包括:确定组成输入的搜索关键词的关键词单元;并根据预设的关键词单元组合方式,确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合;以及从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中,确定与第一关键词单元组合相匹配的关键词单元组合,并确定所述相匹配的关键词单元组合所对应的标识,其中,为不同搜索关键词分配的标识互不相同;以及根据所述相匹配的关键词单元组合所对应的标识,从确定的所述相匹配的关键词单元组合中,确定对应于同一标识的关键词单元组合;并针对所述相匹配的关键词单元组合对应的每一标识,分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词;以及从确定的搜索关键词中确定一个搜索关键词,并根据确定的该搜索关键词搜索数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:常超
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1