索引处理方法、装置、设备及介质制造方法及图纸

技术编号:24574388 阅读:27 留言:0更新日期:2020-06-21 00:10
本发明专利技术实施例提供了索引处理方法、装置、设备及介质。该方法包括:获取多个索引关键词,每个索引关键词分别对应有索引链;从多个索引关键词对应的索引链中查找目标索引链,目标索引链满足预定的长链查找规则;将目标索引链裁剪为至少两个索引链。如此,将长链索引剪枝为多链索引,为并行查询奠定了基础,进而为提高检索效率奠定了基础。

Index processing methods, devices, equipment and media

【技术实现步骤摘要】
索引处理方法、装置、设备及介质
本专利技术涉及索引
,尤其涉及一种索引处理方法、装置、设备及介质
技术介绍
Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。目前广泛适用于企业中的ElasticSearch和Solr都是基于Lucene的搜索引擎框架。实际应用中,为了能够快速查找文档标识(docid),Lucene采用了跳表(SkipList)的数据结构。这里,SkipList具有以下几个特征:Lucene按照docid进行从小到大的倒叙排序;以固定的间隔跳跃,该间隔可以是根据实际情况指定的,如在建立SkipList的时候指定,如图1(a)所示,假设有100个doc,docid为1-100,间隔为3,则可得到如图1(a)所示的数据结构,其中,Lucene,Solr以及Hadoop等关键词构成词典,与词典对应的即为倒叙表。基于图1(a)所示的数据结构,若要寻找既包含有“Lucene”,又包含有“Solr”的文档,则需执行如下步骤:<br>取出包含字符串本文档来自技高网...

【技术保护点】
1.一种索引处理方法,所述方法包括:/n获取多个索引关键词,每个索引关键词分别对应有索引链;/n从所述多个索引关键词对应的索引链中查找目标索引链,所述目标索引链满足预定的长链查找规则;/n将所述目标索引链裁剪为至少两个索引链。/n

【技术特征摘要】
1.一种索引处理方法,所述方法包括:
获取多个索引关键词,每个索引关键词分别对应有索引链;
从所述多个索引关键词对应的索引链中查找目标索引链,所述目标索引链满足预定的长链查找规则;
将所述目标索引链裁剪为至少两个索引链。


2.根据权利要求1所述的方法,其特征在于,该方法包括:
按照预定的时间周期,周期性地执行所述索引处理方法;
或者,
如果索引关键词的查询响应时间达到第一时间阈值,执行所述索引处理方法。


3.根据权利要求1或2所述的方法,其特征在于,所述从所述多个索引关键词对应的索引链中查找目标索引链,包括:
查找索引链长度达到第一长度阈值的索引链作为目标索引链,所述长链查找规则要求索引链长度达到第一长度阈值,裁剪得到的每个索引链长度不超过所述第一长度阈值;
或者,
查找查询响应时间达到第二时间阈值的索引关键词对应的索引链作为目标索引链,所述长链查找规则要求索引关键词的查询响应时间达到第二时间阈值,裁剪得到的每个索引链长度不超过第二长度阈值。


4.根据权利要求3所述的方法,其特征在于,该方法还包括:
根据所述多个索引关键词对应的索引链的长度均值确定所述第一长度阈值。


5.根据权利要求3所述的方法,其特征在于,该方法还包括:
根据所述多个索引关键词的查询响应时间的均值确定所述第二时间阈值。


6.根据权利要求1或2所述的方法,其特征在于,所述获取多个索引关键词,包括:
通过遍历字典树获取多个索引关键词。


7.一种索引处理装置,其特征在于,所述装置包括:
索引关键词获取单元,用于获取多个...

【专利技术属性】
技术研发人员:杨名
申请(专利权)人:中国移动通信集团四川有限公司中国移动通信集团有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1