一种全文检索功能的实现方法、装置与电子设备制造方法及图纸

技术编号:33506443 阅读:22 留言:0更新日期:2022-05-19 01:16
本申请公开一种全文检索功能的实现方法、装置与电子设备。本申请的方法包括:获取原始数据,创建所述原始数据对应的倒排索引;将所述倒排索引存储到本地Ehcahe中;在启动查询索引操作时,从所述Ehcahe中获得查询结果。本申请的技术方案不依赖于外部组件和外部网络,并利用Ehcache本身的功能可以控制内存使用,避免随原始数据增加,倒排索引占用内存无限增加的情况出现。的情况出现。的情况出现。

【技术实现步骤摘要】
一种全文检索功能的实现方法、装置与电子设备


[0001]本申请涉及计算机
,尤其涉及一种全文检索功能的实现方法、装置与电子设备。

技术介绍

[0002]全文检索(Full Text Retrieval)是指以全部文本信息作为检索对象的一种信息检索技术。将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。这种先建立索引,再对索引进行搜索的过程就是全文检索。
[0003]目前,全文检索大多是基于Lucene技术,Lucene是Apache(音译为阿帕奇)软件基金会下的一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎、索引引擎和部分文本分析引擎。所熟知的全文检索引擎Solr和ES(ElasticSearch,弹性搜索)都是基于Lucene实现的,而现有方案大多是基于Solr及ES实现的全文检索功能。这种方式实现全文检索需要依赖于外部部署Solr及ES服务(集群),但在某些场景下,软件本身无本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种全文检索功能的实现方法,其特征在于,所述方法包括:获取原始数据,创建所述原始数据对应的倒排索引;将所述倒排索引存储到本地Ehcahe中;在启动查询索引操作时,从所述Ehcahe中获得查询结果。2.如权利要求1所述方法,其特征在于,创建所述原始数据对应的倒排索引,包括:解析所述原始数据,生成所述原始数据对应的原始字符串;将所述原始字符串进行分词处理,得到多个子串;将具有相同数据内容的子串写入到本地存储域中的临时索引文件,得到多个子串对应的多个临时索引文件;对每个临时索引文件中的子串进行整合处理,将具有相同数据内容的子串整合为一条倒排索引项,得到由多个倒排索引项构成的倒排索引文件。3.如权利要求2所述方法,其特征在于,将具有相同数据内容的子串写入到本地存储域中的临时索引文件,包括:将每个子串的数据内容作为该子串的Key、将每个子串的数据ID作为该子串的Value,对每个子串的Key做哈希处理,得到每个子串对应的哈希值;根据子串对应的哈希值,将哈希值相同的子串以Key-Value的形式写入到同一个临时索引文件中。4.如权利要求3所述方法,其特征在于,对每个临时索引文件中的子串进行整合处理,将具有相同数据内容的子串整合为一条倒排索引项,包括:将每个临时索引文件中具有相同Key值的子串的Value进行合并,得到相同Key值对应的集合Values,由Key值及Key值对应的集合Values得到一条倒排索引项。5.如权利要求2所述方法,其特征在于,所述得到由多个倒排索引项构成的倒排索引文件之后,所述方法还包括:将所述倒排索引文件保存到...

【专利技术属性】
技术研发人员:王震新
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1