索引处理方法、装置、设备及介质制造方法及图纸

技术编号:24574388 阅读:19 留言:0更新日期:2020-06-21 00:10
本发明专利技术实施例提供了索引处理方法、装置、设备及介质。该方法包括:获取多个索引关键词,每个索引关键词分别对应有索引链;从多个索引关键词对应的索引链中查找目标索引链,目标索引链满足预定的长链查找规则;将目标索引链裁剪为至少两个索引链。如此,将长链索引剪枝为多链索引,为并行查询奠定了基础,进而为提高检索效率奠定了基础。

Index processing methods, devices, equipment and media

【技术实现步骤摘要】
索引处理方法、装置、设备及介质
本专利技术涉及索引
,尤其涉及一种索引处理方法、装置、设备及介质
技术介绍
Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。目前广泛适用于企业中的ElasticSearch和Solr都是基于Lucene的搜索引擎框架。实际应用中,为了能够快速查找文档标识(docid),Lucene采用了跳表(SkipList)的数据结构。这里,SkipList具有以下几个特征:Lucene按照docid进行从小到大的倒叙排序;以固定的间隔跳跃,该间隔可以是根据实际情况指定的,如在建立SkipList的时候指定,如图1(a)所示,假设有100个doc,docid为1-100,间隔为3,则可得到如图1(a)所示的数据结构,其中,Lucene,Solr以及Hadoop等关键词构成词典,与词典对应的即为倒叙表。基于图1(a)所示的数据结构,若要寻找既包含有“Lucene”,又包含有“Solr”的文档,则需执行如下步骤:取出包含字符串“Lucene”的文档链表;取出包含字符串“Solr”的文档链表;通过合并链表,找出既包含“Lucene”又包含“Solr”的文件,如参见图1(b),通过合并后的链表得到满足上述要求的文档,即得到docid为3、10、35以及92的文档。实际应用中,当文档链表很长,若对该文档链表进行查询,则导致响应时间太长,则会花费大量查询时间,降低了查询效率。综上所述,亟需一种索引处理方法、装置、设备及介质,以解决上述问题。
技术实现思路
本专利技术实施例提供了索引处理方法、装置、设备及介质,能够将长索引链剪枝为多条索引链,进而为并行查询奠定了基础,同时,为提高检索效率奠定了基础。第一方面,本专利技术实施例提供了一种索引处理方法,包括:获取多个索引关键词,每个索引关键词分别对应有索引链;从上述多个索引关键词对应的索引链中查找目标索引链,目标索引链满足预定的长链查找规则;将目标索引链裁剪为至少两个索引链。第二方面,本专利技术实施例提供了一种索引处理装置,包括:索引关键词获取单元,用于获取多个索引关键词,每个索引关键词分别对应有索引链;筛选单元,用于从所述多个索引关键词对应的索引链中查找目标索引链,所述目标索引链满足预定的长链查找规则;剪枝单元,用于将所述目标索引链裁剪为至少两个索引链。第三方面,本专利技术实施例提供了一种索引处理设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。本专利技术实施例提供的索引处理方法、装置、设备及介质,对满足预定的长链查找规则的目标索引链裁剪为至少两个索引链,缩短了单个索引链的长度,进而可以缩短单索引链上的查询时间,为并行查询奠定了基础,进而为提高查询效率奠定了基础。第五方面,本专利技术实施例提供了一种索引处理方法,该方法包括:获取查询指令,该查询指令中携带索引关键词,索引关键词对应的索引链是按照上述第一方面的方法裁剪得到的;基于上述索引关键词对应的各条索引链并行执行查询操作。第六方面,本专利技术实施例提供一种索引处理装置,该装置包括:查询命令获取单元,用于获取查询指令,该查询指令中携带索引关键词,索引关键词对应的索引链是按照第一方面提供的方法裁剪得到的;查询操作执行单元,用于基于上述索引关键词对应的各条索引链并行执行查询操作。第七方面,本专利技术实施例提供一种索引处理设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当该计算机程序指令被处理器执行时实现如第五方面所述的方法。第八方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,当该计算机程序指令被处理器执行时实现如第五方面所述的方法。本专利技术实施例提供的索引处理方法、装置、设备及介质,对满足预定的长链查找规则的目标索引链裁剪为至少两个索引链,缩短了单个索引链的长度,进而可以缩短单索引链上的查询时间,在接收到查询指令后,可以在检索关键词对应的至少两个索引链上并行查询,提高了查询效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1(a)示出了一具体示例中倒叙索引的结构示意图;图1(b)示出了一具体示例中查询流程示意图;图1(c)示出了一具体单词组的Trie树结构示意图;图2(a)示出了根据本专利技术一些实施例提供的索引处理方法的流程示意图;图2(b)示出了本专利技术实施例提供的索引处理方法在一具体示例中的流程示意图;图2(c)示出了根据本专利技术一些实施例提供的索引处理方法对目标Term进行剪枝处理前,以及处理后所得到的索引列表结构示意图;图2(d)示出了一具体示例中Term索引结构示意图;图3示出了本专利技术一些实施例提供的索引处理装置的组成结构示意图;图4示出了本专利技术实施例提供的索引处理设备的硬件结构示意图;图5示出了本专利技术另一些实施例提供的索引处理方法的流程示意图;图6示出了本专利技术另一些实施例提供的索引处理装置的组成结构示意图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。实际应用中,Lucene中包含了四种基本数据类型,分别是:Index:索引,由很多的文档(Document)组成;Document:文档,由很多的字段(Field)组成本文档来自技高网
...

【技术保护点】
1.一种索引处理方法,所述方法包括:/n获取多个索引关键词,每个索引关键词分别对应有索引链;/n从所述多个索引关键词对应的索引链中查找目标索引链,所述目标索引链满足预定的长链查找规则;/n将所述目标索引链裁剪为至少两个索引链。/n

【技术特征摘要】
1.一种索引处理方法,所述方法包括:
获取多个索引关键词,每个索引关键词分别对应有索引链;
从所述多个索引关键词对应的索引链中查找目标索引链,所述目标索引链满足预定的长链查找规则;
将所述目标索引链裁剪为至少两个索引链。


2.根据权利要求1所述的方法,其特征在于,该方法包括:
按照预定的时间周期,周期性地执行所述索引处理方法;
或者,
如果索引关键词的查询响应时间达到第一时间阈值,执行所述索引处理方法。


3.根据权利要求1或2所述的方法,其特征在于,所述从所述多个索引关键词对应的索引链中查找目标索引链,包括:
查找索引链长度达到第一长度阈值的索引链作为目标索引链,所述长链查找规则要求索引链长度达到第一长度阈值,裁剪得到的每个索引链长度不超过所述第一长度阈值;
或者,
查找查询响应时间达到第二时间阈值的索引关键词对应的索引链作为目标索引链,所述长链查找规则要求索引关键词的查询响应时间达到第二时间阈值,裁剪得到的每个索引链长度不超过第二长度阈值。


4.根据权利要求3所述的方法,其特征在于,该方法还包括:
根据所述多个索引关键词对应的索引链的长度均值确定所述第一长度阈值。


5.根据权利要求3所述的方法,其特征在于,该方法还包括:
根据所述多个索引关键词的查询响应时间的均值确定所述第二时间阈值。


6.根据权利要求1或2所述的方法,其特征在于,所述获取多个索引关键词,包括:
通过遍历字典树获取多个索引关键词。


7.一种索引处理装置,其特征在于,所述装置包括:
索引关键词获取单元,用于获取多个...

【专利技术属性】
技术研发人员:杨名
申请(专利权)人:中国移动通信集团四川有限公司中国移动通信集团有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1