【技术实现步骤摘要】
本专利技术涉及文本搜索
,尤其涉及一种索引建立方法和系统、搜索方法和系统。
技术介绍
在搜索领域,建立倒排表作为文本搜索的索引,这几乎已成为业界的一种标准方法。随着基于位置服务(LBS,Location Based Service)的应用逐渐兴起,对空间索引的需求也越来越强烈。用户经常需要查询在一定距离范围的匹配结果。目前多采用空间索引与关键词索引分别建立的方法,相互过滤,即空间索引和关键词索引分别建立,搜索时,先在空间索引库里找到满足条件的结果,再在关键词索引库里找到满足条件的结果,最后进行结果的归并。现有技术的这种搜索方案,由于需要建立多个索引,并进行多次搜索,因此存在数据传输量大,计算量大的问题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种索引建立方法和系统、搜索方法和系统,以解决现有技术中的搜索方法存在的数据传输量大,计算量大的问题。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供了一种索引建立方法,该方法包括:对每个输入样本中的样本关键词进行分词处理得到索引关键词;根据每个输入样本中的地标值分别计算对应的排序因子;以索引 ...
【技术保护点】
一种索引建立方法,其特征在于,该方法包括:对每个输入样本中的样本关键词进行分词处理得到索引关键词;根据每个输入样本中的地标值分别计算对应的排序因子;以索引关键词为索引建立倒排表,所述倒排表中的各索引项包括与所述索引关键词相对应的排序因子和地标值,且在各索引项中,相同的排序因子所对应的地标值聚集在一起。
【技术特征摘要】
1.一种索引建立方法,其特征在于,该方法包括: 对每个输入样本中的样本关键词进行分词处理得到索引关键词; 根据每个输入样本中的地标值分别计算对应的排序因子; 以索引关键词为索引建立倒排表,所述倒排表中的各索引项包括与所述索引关键词相对应的排序因子和地标值,且在各索引项中,相同的排序因子所对应的地标值聚集在一起。2.根据权利要求1所述索引建立方法,其特征在于,所述排序因子为空间索引与其他顺序影响因子的组合值,所述空间因子是根据所述地标值计算得到的,所述其他顺序影响因子根据具体业务需求确定。3.根据权利要求2所述索引建立方法,其特征在于,ScoreVal=SpacelD+OhterVal/lOO0.0,SpaceID = X*100000+Y ; 其中,ScoreVal表示所述排序因子,SpaceID表示所述空间因子,OhterVal表示所述其他顺序影响因子;X表示地标横坐标的公里值,小数部分向下取整;Y表示地标纵坐标的公里值,小数部分向下取整。4.一种索引建立系统,其特征在于,该系统包括:分词模块、排序因子计算模块和倒排表建立模块,其中, 所述分词模块,用于对每个输入样本中的样本关键词进行分词处理得到索引关键词; 所述排序因子计算模块,用于根据每个输入样本中的地标值分别计算对应的排序因子;所述倒排表建立模块,用于以索引关键词为索引建立倒排表,所述倒排表中的各索引项包括与所述索引关键词相对应的排序因子和地标值,且在各索引项中,将相同的排序因子所对应的地标值聚集在一起。5.根据权利要求4所述索引建立系统,其特征在于,所述排序因子计算模块进一步用于,将空间索引与其他顺序影响因子的组合值作为排序因子, 其中,所述空间因子由所述排序因子计算模块根据所述地标值计算得到,所述其他顺序影响因子由所述排序因子计算模块根据具体业务需求确定。6.根据权利要求5所述索引建立系统,其特征在于,ScoreVal=SpaceID+0hterVal/1000.0,SpaceID = X*100000+Y ; 其中,ScoreVal表示所述排序因子,SpaceID表示所述空间因子,OhterVal表示所述其他顺序影响因子;X表示地标横坐标的公里值,...
【专利技术属性】
技术研发人员:刘元芳,周晓波,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。