一种数据搜索处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29156747 阅读:10 留言:0更新日期:2021-07-06 22:56
本发明专利技术提供一种数据搜索处理方法、装置、电子设备和存储介质,基于表示数据内容的内容信息和/或状态信息的数据字段,对数据字段与数据内容创建不同索引方式的索引。在创建索引时考虑到数据字段所表示信息的更新频次,从而能够基于更新频次选择合适的索引方式,使得更新频次较高的信息更新时无需对数据内容相关的所有信息进行伪删除,从而降低伪删除数据的数据量,有助于提高搜索性能。还可以基于数据字段在数据搜索中的作用创建不同索引方式的索引,使得搜索过程不需要每次均通过扫描原文档获取需要的信息,提高搜索效率。

【技术实现步骤摘要】
一种数据搜索处理方法、装置、电子设备和存储介质
本专利技术涉及搜索引擎
,尤其涉及一种数据搜索处理方法、装置、电子设备和存储介质。
技术介绍
现有的数据搜索在创建索引时,通常会基于通过文档提取的分词term和文档ID创建倒排索引,并基于文档ID和文档中包含的内容创建正排索引,例如,现有的基于lucene搜索内核的开源的分布式搜索引擎是基于这一原理建立索引的。其中,文档中不仅包含数据内容,还包含数据内容的状态信息,无论是数据内容还是状态信息发生更新,均需要对原文档进行伪删除,创建新的文档。这样随着时间的推移,文档冗余会增多,索引大小也会变大,极端情况下,冗余能占到整个索引的30%-50%,从而影响搜索性能,搜索耗时增加。另一方面,在数据搜索的过程中,会先根据搜索字段与倒排索引中的term进行匹配,找到被召回的文档ID,然后通过扫描文档ID对应的文档得到用于进行排序的相关信息(例如,状态信息),从而实现对文档的排序。这一过程需要通过扫描文档获取排序的相关信息,耗时较长,效率较低。可见,现有技术基于分词和文档创建索引的方式,会随时间推移增加伪删除数据,影响搜索性能,且现有技术中基于所创建的索引进行搜索的过程也不利于提高搜索效率。
技术实现思路
本专利技术提供一种数据搜索处理方法、装置、电子设备和存储介质,用以解决现有技术基于分词和文档创建索引的方式,会随时间推移增加伪删除数据,影响搜索性能,且现有技术中基于所创建的索引进行搜索的过程也不利于提高搜索效率的缺陷,实现了降低伪删除数据的数据量,提高搜索效率,优化搜索性能。本专利技术提供一种数据搜索处理方法,包括:获取对数据内容以不同索引方式创建的索引;其中,所述索引方式根据数据字段所表示信息的更新频次和/或所述数据字段在数据搜索中的作用确定;所述数据字段用于表示所述数据内容的内容信息和/或状态信息;根据所述索引进行数据搜索。根据本专利技术提供一种数据搜索处理方法,在上述基础上,在获取对数据内容以不同索引方式创建的索引之前,还包括:若所述数据字段所表示信息的更新频次大于预设更新频次,则创建正排索引;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引;若所述数据字段所表示信息的更新频次小于或等于所述预设更新频次,则创建倒排索引,其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引。根据本专利技术提供一种数据搜索处理方法,在上述基础上,在获取对数据内容以不同索引方式创建的索引之前,还包括:若所述数据字段在数据搜索中的作用为确定与搜索字段关联的召回数据内容,则创建倒排索引,其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引;若所述数据字段在数据搜索中的作用不是确定所述召回数据内容,则创建正排索引;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引。根据本专利技术提供一种数据搜索处理方法,在上述基础上,所述若所述数据字段在数据搜索中的作用不是确定所述召回数据内容,则创建正排索引,包括:若所述数据字段在数据搜索中的作用为对所述召回数据内容进行排序,则将创建的正排索引存储在缓存中;若所述数据字段在数据搜索中的作用为读取所述数据内容,则将创建的正排索引存储在磁盘中。根据本专利技术提供一种数据搜索处理方法,在上述基础上,所述根据所述索引进行数据搜索,包括:根据搜索字段和创建的倒排索引,确定与所述搜索字段关联的召回数据内容;其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引;和/或,根据所述召回数据内容和创建的正排索引,确定响应于所述搜索请求的搜索结果;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引。根据本专利技术提供一种数据搜索处理方法,在上述基础上,所述根据所述召回数据内容和创建的正排索引,确定响应于所述搜索请求的搜索结果,包括:通过创建的正排索引获取用于对所述召回数据内容进行排序的数据字段,作为状态数据字段;根据所述状态数据字段对所述召回数据内容进行排序,得到数据内容序列;基于所述数据内容序列确定响应于所述搜索请求的数据内容,作为所述搜索结果。根据本专利技术提供一种数据搜索处理方法,在上述基础上,所述基于所述数据内容序列确定响应于所述搜索请求的数据内容,作为所述搜索结果,包括:通过从所述数据内容序列中确定待显示数据内容;通过创建的正排索引获取读取每一待显示数据内容,得到所述搜索结果。本专利技术提供一种数据搜索处理装置,包括:获取模块,用于获取对数据内容以不同索引方式创建的索引;其中,所述索引方式根据数据字段所表示信息的更新频次和/或所述数据字段在数据搜索中的作用确定;所述数据字段用于表示所述数据内容的内容信息和/或状态信息;搜索模块,用于根据所述索引进行数据搜索。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据搜索处理方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据搜索处理方法的步骤。本专利技术提供的一种数据搜索处理方法、装置、电子设备和存储介质,基于表示数据内容的内容信息和/或状态信息的数据字段,对数据字段与数据内容以不同索引方式创建索引。在创建索引时考虑到数据字段所表示信息的更新频次,从而能够基于更新频次选择合适的索引方式,使得更新频次较高的信息更新时无需对数据内容相关的所有信息进行伪删除,从而降低伪删除数据的数据量,有助于提高搜索性能。还可以基于数据字段在数据搜索中的作用以不同索引方式创建索引,使得搜索过程不需要每次均通过扫描原文档获取需要的信息,提高搜索效率。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的数据搜索处理方法的流程示意图之一;图2是本专利技术提供的对静态数据字段、动态数据字段和补充数据字段所创建索引的存储方式示意图;图3是本专利技术提供的搜索引擎的索引组成部分示意图;图4是本专利技术提供的索引更新具体流程示意图;图5是本专利技术提供的搜索工作流程示意图;图6是本专利技术提供的数据搜索处理装置的结构框图之一;图7是本专利技术提供的电子设备的实体结构示意图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图本文档来自技高网...

【技术保护点】
1.一种数据搜索处理方法,其特征在于,包括:/n获取对数据内容以不同索引方式创建的索引;其中,所述索引方式根据数据字段所表示信息的更新频次和/或所述数据字段在数据搜索中的作用确定;所述数据字段用于表示所述数据内容的内容信息和/或状态信息;/n根据所述索引进行数据搜索。/n

【技术特征摘要】
1.一种数据搜索处理方法,其特征在于,包括:
获取对数据内容以不同索引方式创建的索引;其中,所述索引方式根据数据字段所表示信息的更新频次和/或所述数据字段在数据搜索中的作用确定;所述数据字段用于表示所述数据内容的内容信息和/或状态信息;
根据所述索引进行数据搜索。


2.根据权利要求1所述的数据搜索处理方法,其特征在于,在获取对数据内容以不同索引方式创建的索引之前,还包括:
若所述数据字段所表示信息的更新频次大于预设更新频次,则创建正排索引;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引;
若所述数据字段所表示信息的更新频次小于或等于所述预设更新频次,则创建倒排索引,其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引。


3.根据权利要求1所述的数据搜索处理方法,其特征在于,在获取对数据内容以不同索引方式创建的索引之前,还包括:
若所述数据字段在数据搜索中的作用为确定与搜索字段关联的召回数据内容,则创建倒排索引,其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引;
若所述数据字段在数据搜索中的作用不是确定所述召回数据内容,则创建正排索引;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引。


4.根据权利要求3所述的数据搜索处理方法,其特征在于,所述若所述数据字段在数据搜索中的作用不是确定所述召回数据内容,则创建正排索引,包括:
若所述数据字段在数据搜索中的作用为对所述召回数据内容进行排序,则将创建的正排索引存储在缓存中;
若所述数据字段在数据搜索中的作用为读取所述数据内容,则将创建的正排索引存储在磁盘中。


5.根据权利要求1所述的数据搜索处理方法,其特征在于,所述根据所述索引进行数据搜索,包括:
根据搜索字段和创建的倒排索引,确...

【专利技术属性】
技术研发人员:杨华李琳周效军
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1