倒排索引方法及装置制造方法及图纸

技术编号:19009236 阅读:52 留言:0更新日期:2018-09-22 09:05
本发明专利技术提出一种倒排索引方法及装置,其中方法包括:获取检索条件;检索条件中包括:至少一个待检索的关键词;根据检索条件查询倒排索引结构,获取与检索条件匹配的一级索引词;根据检索条件查询一级索引词对应的二级索引数据,获取二级索引数据中与检索条件匹配的二级索引词;根据二级索引词对应的二级倒排数据,确定检索结果,从而能够避免将所有的广告定向条件作为一级索引词,也避免将部分广告定向条件作为对检索结果的过滤条件,而是将部分广告定向条件作为一级索引词,部分广告定向条件作为二级索引词,在提高检索效率的同时,确保较低的内存占用量。

Inverted index method and device

The invention provides an inverted indexing method and device, wherein the method includes: acquiring the retrieval condition; the retrieval condition includes at least one key word to be retrieved; the inverted index structure is queried according to the retrieval condition to obtain the first-level index word matching the retrieval condition; and the second-level index word corresponding to the first-level index word is queried according to the retrieval condition; Secondary indexing data is used to obtain the second-level indexing terms matching the retrieval conditions in the secondary indexing data, and the retrieval results are determined according to the second-level inverted data corresponding to the second-level indexing terms. Conditions, but part of the advertising targeting conditions as a first-level indexing terms, part of the advertising targeting conditions as a second-level indexing terms, to improve the retrieval efficiency, while ensuring a low memory footprint.

【技术实现步骤摘要】
倒排索引方法及装置
本专利技术涉及数据处理
,尤其涉及一种倒排索引方法及装置。
技术介绍
目前,搜索引擎、定向广告播放系统等系统中采用的倒排索引结构一般为一级倒排索引结构。例如,在定向广告播放系统中,一种解决方法是,将所有的广告定向条件作为一级索引词,与广告定向条件匹配的广告的相关信息作为一级倒排数据。然而这种解决方法中,随着广告定向条件的增加,倒排索引结构的内存占用量会极大的增加。另一种解决方法是,将一部分广告定向条件作为一级索引词,采用另一部分广告定向条件对检索结果进行过滤。然而这种解决方法中,过滤性能是低效的,影响检索效率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种倒排索引方法,用于解决现有技术中倒排索引结构难以同时满足较低的内存占用量和较高的检索效率的问题。本专利技术的第二个目的在于提出一种倒排索引装置。本专利技术的第三个目的在于提出另一种倒排索引装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种倒排索引方法,包括:获取检索条件;所述检索条件中包括:至少一个待检索的关键词;根据所述检索条件查询倒排索引结构,获取与所述检索条件匹配的一级索引词;根据所述检索条件查询一级索引词对应的二级索引数据,获取所述二级索引数据中与所述检索条件匹配的二级索引词;根据所述二级索引词对应的二级倒排数据,确定检索结果。进一步的,所述倒排索引结构中包括:一级索引词,以及对应的一级倒排数据和二级索引数据;所述一级倒排数据中包括:与所述一级索引词相关的各个对象的信息;所述二级索引数据中包括:各个二级索引词以及对应的二级倒排数据。进一步的,所述二级索引词对应的二级倒排数据中包括:所述一级倒排数据中与所述二级索引词相关的各个对象的信息。进一步的,所述二级倒排数据中,所述对象的信息,为所述对象在所述一级倒排数据中的序列号。进一步的,所述根据所述二级索引词对应的二级倒排数据,确定检索结果,包括:获取所述二级倒排数据中各个对象的序列号;根据所述各个对象的序列号,查询所述一级倒排数据,获取所述一级倒排数据中所述各个对象的信息;根据所述一级倒排数据中所述各个对象的信息,确定检索结果。进一步的,所述二级索引数据中还包括:序列号的字节类型;所述序列号的字节类型,根据所述一级倒排数据中对象的数量确定;对应的,所述获取所述二级倒排数据中各个对象的序列号,包括:获取所述二级索引数据中序列号的字节类型;根据所述字节类型,从所述二级倒排数据中依次获取所述各个对象的序列号。本专利技术实施例的倒排索引方法,通过获取检索条件;检索条件中包括:至少一个待检索的关键词;根据检索条件查询倒排索引结构,获取与检索条件匹配的一级索引词;根据检索条件查询一级索引词对应的二级索引数据,获取二级索引数据中与检索条件匹配的二级索引词;根据二级索引词对应的二级倒排数据,确定检索结果,从而能够避免将所有的广告定向条件作为一级索引词,也避免将部分广告定向条件作为对检索结果的过滤条件,而是将部分广告定向条件作为一级索引词,部分广告定向条件作为二级索引词,在提高检索效率的同时,确保较低的内存占用量。为达上述目的,本专利技术第二方面实施例提出了一种倒排索引装置,包括:获取模块,用于获取检索条件;所述检索条件中包括:至少一个待检索的关键词;查询模块,用于根据所述检索条件查询倒排索引结构,获取与所述检索条件匹配的一级索引词;所述查询模块,还用于根据所述检索条件查询一级索引词对应的二级索引数据,获取所述二级索引数据中与所述检索条件匹配的二级索引词;确定模块,用于根据所述二级索引词对应的二级倒排数据,确定检索结果。进一步的,所述倒排索引结构中包括:一级索引词,以及对应的一级倒排数据和二级索引数据;所述一级倒排数据中包括:与所述一级索引词相关的各个对象的信息;所述二级索引数据中包括:各个二级索引词以及对应的二级倒排数据。进一步的,所述二级索引词对应的二级倒排数据中包括:所述一级倒排数据中与所述二级索引词相关的各个对象的信息。进一步的,所述二级倒排数据中,所述对象的信息,为所述对象在所述一级倒排数据中的序列号。进一步的,所述确定模块包括:获取单元,用于在所述二级倒排数据中各个对象的信息,为所述各个对象在所述一级索引词对应的一级倒排数据中的序列号时,获取所述二级倒排数据中各个对象的序列号;所述获取单元,还用于根据所述各个对象的序列号,查询所述一级倒排数据,获取所述一级倒排数据中所述各个对象的信息;确定单元,用于根据所述一级倒排数据中所述各个对象的信息,确定检索结果。进一步的,所述二级索引数据中还包括:序列号的字节类型;所述序列号的字节类型,根据所述一级倒排数据中对象的数量确定;对应的,所述获取单元具体用于,获取所述二级索引数据中序列号的字节类型;根据所述字节类型,从所述二级倒排数据中依次获取所述各个对象的序列号。本专利技术实施例的倒排索引装置,通过获取检索条件;检索条件中包括:至少一个待检索的关键词;根据检索条件查询倒排索引结构,获取与检索条件匹配的一级索引词;根据检索条件查询一级索引词对应的二级索引数据,获取二级索引数据中与检索条件匹配的二级索引词;根据二级索引词对应的二级倒排数据,确定检索结果,从而能够避免将所有的广告定向条件作为一级索引词,也避免将部分广告定向条件作为对检索结果的过滤条件,而是将部分广告定向条件作为一级索引词,部分广告定向条件作为二级索引词,在提高检索效率的同时,确保较低的内存占用量。为达上述目的,本专利技术第三方面实施例提出了另一种倒排索引装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的倒排索引方法。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令被处理器执行时,实现如上所述的方法。为达上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例提供的一种倒排索引方法的流程示意图;图2为一级索引词,以及对应的一级倒排数据和二级索引数据的示意图;图3为本专利技术实施例提供的另一种倒排索引方法的流程示意图;图4为图2中二级倒排数据中的对象的信息为序列号的示意图;图5为本专利技术实施例提供的一种倒排索引装置的结构示意图;图6为本专利技术实施例提供的另一种倒排索引装置的结构示意图;图7为本专利技术实施例提供的另一种倒排索引装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的倒排索引方法及装置。图1为本专利技术实施例提供的一种倒本文档来自技高网...
倒排索引方法及装置

【技术保护点】
1.一种倒排索引方法,其特征在于,包括:获取检索条件;所述检索条件中包括:至少一个待检索的关键词;根据所述检索条件查询倒排索引结构,获取与所述检索条件匹配的一级索引词;根据所述检索条件查询一级索引词对应的二级索引数据,获取所述二级索引数据中与所述检索条件匹配的二级索引词;根据所述二级索引词对应的二级倒排数据,确定检索结果。

【技术特征摘要】
1.一种倒排索引方法,其特征在于,包括:获取检索条件;所述检索条件中包括:至少一个待检索的关键词;根据所述检索条件查询倒排索引结构,获取与所述检索条件匹配的一级索引词;根据所述检索条件查询一级索引词对应的二级索引数据,获取所述二级索引数据中与所述检索条件匹配的二级索引词;根据所述二级索引词对应的二级倒排数据,确定检索结果。2.根据权利要求1所述的方法,其特征在于,所述倒排索引结构中包括:一级索引词,以及对应的一级倒排数据和二级索引数据;所述一级倒排数据中包括:与所述一级索引词相关的各个对象的信息;所述二级索引数据中包括:各个二级索引词以及对应的二级倒排数据。3.根据权利要求2所述的方法,其特征在于,所述二级索引词对应的二级倒排数据中包括:所述一级倒排数据中与所述二级索引词相关的各个对象的信息。4.根据权利要求1-3任一所述的方法,其特征在于,所述二级倒排数据中,所述对象的信息,为所述对象在所述一级倒排数据中的序列号。5.根据权利要求4所述的方法,其特征在于,所述根据所述二级索引词对应的二级倒排数据,确定检索结果,包括:获取所述二级倒排数据中各个对象的序列号;根据所述各个对象的序列号,查询所述一级倒排数据,获取所述一级倒排数据中所述各个对象的信息;根据所述一级倒排数据中所述各个对象的信息,确定检索结果。6.根据权利要求5所述的方法,其特征在于,所述二级索引数据中还包括:序列号的字节类型;所述序列号的字节类型,根据所述一级倒排数据中对象的数量确定;对应的,所述获取所述二级倒排数据中各个对象的序列号,包括:获取所述二级索引数据中序列号的字节类型;根据所述字节类型,从所述二级倒排数据中依次获取所述各个对象的序列号。7.一种倒排索引装置,其特征在于,包括:获取模块,用于获取检索条件;所述检索条件中包括:至少一个待检索的关键词;查询模块,用于根据所述检索条件查询倒排索引结构,获取与所述检索条件匹配的一级索引词;所述查询模块,还用于根据所述检索条件查询一级索引词对应的二级索引数据,获取所述二级索引数据中与所...

【专利技术属性】
技术研发人员:梁希云秦锋剑
申请(专利权)人:小草数语北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1