全文检索方法及装置、计算机存储介质、电子设备制造方法及图纸

技术编号:27435809 阅读:39 留言:0更新日期:2021-02-25 03:23
本公开涉及计算机技术领域,提供了一种全文检索方法、全文检索装置、计算机存储介质、电子设备,其中,全文检索方法包括:获取原始文档,所述原始文档位于第一内存缓冲区中;根据KV(键值对)存储引擎为所述原始文档构建索引信息;当接收到用户对所述原始文档的查询请求时,通过索引读取接口获取所述索引信息对应的原始文档。本公开中的全文检索方法能够提高检索的实时性。索的实时性。索的实时性。

【技术实现步骤摘要】
全文检索方法及装置、计算机存储介质、电子设备


[0001]本公开涉及计算机
,特别涉及一种全文检索方法、全文检索装置、计算机存储介质及电子设备。

技术介绍

[0002]随着计算机及互联网技术的迅速发展,使得检索相关资料以及网页的困难度增加,普通网络用户想找到所需的资料简直如同大海捞针。为满足大众的信息检索需求,相关搜索引擎及其相关搜索架构应运而生。以Lucene(一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎)为例,它可以方便地嵌入各种实际应用中实现全文搜索/索引功能。
[0003]目前,为了提升全文检索的性能和节约磁盘空间,一般是在内存里缓存一批数据,定期将缓存的数据刷新(将内存缓存区的数据写入磁盘)至磁盘中以构建倒排索引,进而,可以通过构建的倒排索引检索到之前缓存的数据。这样就造成在刷新之前,内存中缓存的一批数据并不能立即被检索到,因而,检索的实时性较差。
[0004]因此,现有技术中的全文检索方法的实时性有待提高。
[0005]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

[0006]本公开的目的在于提供一种全文检索方法、全文检索装置、计算机存储介质及电子设备,进而至少在一定程度上避免了现有技术中的全文检索方法的实时性较差的缺陷。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的第一方面,提供一种全文检索方法,包括:获取原始文档,所述原始文档位于第一内存缓冲区中;根据KV(键值对)存储引擎为所述原始文档构建索引信息;当接收到用户对所述原始文档的查询请求时,通过索引读取接口获取所述索引信息对应的原始文档。
[0009]在本公开的示例性实施例中,所述原始文档包含多个文档域,所述文档域映射对应的文档域值;所述根据KV存储引擎为所述原始文档构建索引信息,包括:获取所述文档域值对应的分词信息;基于所述KV存储引擎,将所述分词信息编码为对应的信息链表;将所述分词信息与所述信息链表作为所述原始文档对应的索引信息。
[0010]在本公开的示例性实施例中,所述方法还包括:间隔预设时间段之后,将所述原始文档与所述索引信息持久化处理至磁盘中。
[0011]在本公开的示例性实施例中,所述将所述原始文档与所述索引信息持久化处理至磁盘中,包括:若接收到目标指令,则将所述第一内存缓冲区设置为只读模式,并将所述第一内存缓冲区中的原始文档与所述索引信息移动至索引列表中;执行所述目标指令以将所
述原始文档写入磁盘中;删除所述索引列表中的所述索引信息。
[0012]在本公开的示例性实施例中,在所述将所述第一内存缓冲区设置为只读模式,并将所述第一内存缓冲区中的原始文档与所述索引信息移动至索引列表中之后,所述方法还包括:创建第二内存缓冲区。
[0013]在本公开的示例性实施例中,在根据KV存储引擎为所述原始文档构建索引信息之前,所述方法还包括:将所述文档域值存储至所述KV存储引擎中。
[0014]在本公开的示例性实施例中,在根据KV存储引擎为所述原始文档构建索引信息之后,所述方法还包括:对所述文档域值进行聚合处理,并将聚合结果存储至所述KV存储引擎中。
[0015]根据本公开的第二方面,提供一种全文检索装置,包括:获取模块,用于获取原始文档,所述原始文档位于第一内存缓冲区中;构建模块,用于根据KV(键值对)存储引擎为所述原始文档构建索引信息;检索模块,用于当接收到用户对所述原始文档的查询请求时,通过索引读取接口获取所述索引信息对应的原始文档。
[0016]根据本公开的第三方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的全文检索方法。
[0017]根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的全文检索方法。
[0018]由上述技术方案可知,本公开示例性实施例中的全文检索方法、全文检索装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
[0019]在本公开的一些实施例所提供的技术方案中,一方面,通过获取位于第一内存缓冲区中的原始文档,并根据KV存储引擎为原始文档构建索引信息,能够快速为内存中的原始文档构建KV格式的索引信息,以便用户实时检索。另一方面,当接收到用户对原始文档的查询请求时,通过索引读取接口获取索引信息对应的原始文档,能够解决现有技术中在数据刷新之前,内存中缓存的数据无法被检索到的技术问题,提高了相关检索方法的实时性。
[0020]本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1示出本公开一示例性实施例中全文检索方法的流程示意图;
[0023]图2示出本公开另一示例性实施例中全文检索方法的流程示意图;
[0024]图3示出本公开一示例性实施例中全文检索方法的算法流程图;
[0025]图4示出本公开再一示例性实施例中全文检索方法的流程示意图;
[0026]图5示出本公开一示例性实施例中全文检索方法的整体技术架构图;
[0027]图6示出本公开示例性实施例中全文检索装置的结构示意图;
[0028]图7示出本公开示例性实施例中计算机存储介质的结构示意图;
[0029]图8示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
[0030]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
[0031]本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全文检索方法,其特征在于,包括:获取原始文档,所述原始文档位于第一内存缓冲区中;根据KV(键值对)存储引擎为所述原始文档构建索引信息;当接收到用户对所述原始文档的查询请求时,通过索引读取接口获取所述索引信息对应的原始文档。2.根据权利要求1所述的方法,其特征在于,所述原始文档包含多个文档域,所述文档域映射对应的文档域值;所述根据KV存储引擎为所述原始文档构建索引信息,包括:获取所述文档域值对应的分词信息;基于所述KV存储引擎,将所述分词信息编码为对应的信息链表;将所述分词信息与所述信息链表作为所述原始文档对应的索引信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:间隔预设时间段之后,将所述原始文档与所述索引信息持久化处理至磁盘中。4.根据权利要求3所述的方法,其特征在于,所述将所述原始文档与所述索引信息持久化处理至磁盘中,包括:若接收到目标指令,则将所述第一内存缓冲区设置为只读模式,并将所述第一内存缓冲区中的原始文档与所述索引信息移动至索引列表中;执行所述目标指令以将所述原始文档写入磁盘中;删除所述索引列表中的所述索引信息。5.根据权利要求4所述的方法,其特征在于,在所述将所述第一内存缓冲区设置为只读模式,...

【专利技术属性】
技术研发人员:贺伟
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1