【技术实现步骤摘要】
一种数据搜索处理方法、装置、电子设备和存储介质
本专利技术涉及搜索引擎
,尤其涉及一种数据搜索处理方法、装置、电子设备和存储介质。
技术介绍
现有的数据搜索在创建索引时,通常会基于通过文档提取的分词term和文档ID创建倒排索引,并基于文档ID和文档中包含的内容创建正排索引,例如,现有的基于lucene搜索内核的开源的分布式搜索引擎是基于这一原理建立索引的。其中,文档中不仅包含数据内容,还包含数据内容的状态信息,无论是数据内容还是状态信息发生更新,均需要对原文档进行伪删除,创建新的文档。这样随着时间的推移,文档冗余会增多,索引大小也会变大,极端情况下,冗余能占到整个索引的30%-50%,从而影响搜索性能,搜索耗时增加。另一方面,在数据搜索的过程中,会先根据搜索字段与倒排索引中的term进行匹配,找到被召回的文档ID,然后通过扫描文档ID对应的文档得到用于进行排序的相关信息(例如,状态信息),从而实现对文档的排序。这一过程需要通过扫描文档获取排序的相关信息,耗时较长,效率较低。可见,现有技术基于分词和文档 ...
【技术保护点】
1.一种数据搜索处理方法,其特征在于,包括:/n获取对数据内容以不同索引方式创建的索引;其中,所述索引方式根据数据字段所表示信息的更新频次和/或所述数据字段在数据搜索中的作用确定;所述数据字段用于表示所述数据内容的内容信息和/或状态信息;/n根据所述索引进行数据搜索。/n
【技术特征摘要】
1.一种数据搜索处理方法,其特征在于,包括:
获取对数据内容以不同索引方式创建的索引;其中,所述索引方式根据数据字段所表示信息的更新频次和/或所述数据字段在数据搜索中的作用确定;所述数据字段用于表示所述数据内容的内容信息和/或状态信息;
根据所述索引进行数据搜索。
2.根据权利要求1所述的数据搜索处理方法,其特征在于,在获取对数据内容以不同索引方式创建的索引之前,还包括:
若所述数据字段所表示信息的更新频次大于预设更新频次,则创建正排索引;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引;
若所述数据字段所表示信息的更新频次小于或等于所述预设更新频次,则创建倒排索引,其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引。
3.根据权利要求1所述的数据搜索处理方法,其特征在于,在获取对数据内容以不同索引方式创建的索引之前,还包括:
若所述数据字段在数据搜索中的作用为确定与搜索字段关联的召回数据内容,则创建倒排索引,其中,所述倒排索引为通过所述数据字段搜索到所述数据内容的索引;
若所述数据字段在数据搜索中的作用不是确定所述召回数据内容,则创建正排索引;其中,所述正排索引为通过所述数据内容搜索到所述数据字段的索引。
4.根据权利要求3所述的数据搜索处理方法,其特征在于,所述若所述数据字段在数据搜索中的作用不是确定所述召回数据内容,则创建正排索引,包括:
若所述数据字段在数据搜索中的作用为对所述召回数据内容进行排序,则将创建的正排索引存储在缓存中;
若所述数据字段在数据搜索中的作用为读取所述数据内容,则将创建的正排索引存储在磁盘中。
5.根据权利要求1所述的数据搜索处理方法,其特征在于,所述根据所述索引进行数据搜索,包括:
根据搜索字段和创建的倒排索引,确...
【专利技术属性】
技术研发人员:杨华,李琳,周效军,
申请(专利权)人:咪咕文化科技有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。