本发明专利技术涉及数据处理技术领域,提供一种资源文件检索、倒排索引构建方法、装置和电子设备。资源文件检索方法包括:基于检索请求生成检索数据集合,获取预先构建的二级倒排索引,二级倒排索引包括标签数据与包含所述标签数据的标签数据集合的标识的对应关系,基于所述二级倒排索引,确定目标标签数据集合的标识,获取预先构建的一级倒排索引,一级倒排索引包括标签数据集合的标识与资源文件的标识的对应关系,基于所述一级倒排索引,确定目标资源文件的标识,得到检索结果。二级倒排索引中的标签数据集合对应的各个标签对资源文件的分类定位明确,利用其进行检索可以得到与检索数据匹配度更高的检索结果,提高了检索精确度和检索效率。检索效率。检索效率。
【技术实现步骤摘要】
资源文件检索、倒排索引构建方法、装置和电子设备
[0001]本专利技术涉及数据处理
,尤其涉及一种资源文件检索、倒排索引构建方法、装置和电子设备。
技术介绍
[0002]索引是一种高效的数据检索方式,随着计算机技术高速发展,对于搜索引擎,为了提高检索效率,出现了满足其海量及实时检索的倒排索引相关技术及原理。
[0003]通过倒排索引可以根据关键词快速获取包含该关键词的检索结果。但是在某些场景下,当关键词为多个时,现有的倒排索引的检索精确度低,检索效率低。
技术实现思路
[0004]本专利技术提供一种资源文件检索、倒排索引构建方法、装置和电子设备,用以解决现有技术中某些场景下倒排索引存在的检索精确度低和检索效率低的问题。
[0005]本专利技术提供一种资源文件检索方法,包括:
[0006]基于检索请求,生成检索数据集合,所述检索数据集合中包含N个检索数据,N为正整数;
[0007]获取预先构建的二级倒排索引,所述二级倒排索引包括标签数据与标签数据集合的标识的对应关系,所述标签数据集合包含至少一个标签下的所述标签数据;
[0008]基于所述二级倒排索引,确定目标标签数据集合的标识,所述目标标签数据集合中包含与所述检索数据集合中N个所述检索数据相同的N个所述标签数据;
[0009]获取预先构建的一级倒排索引,所述一级倒排索引包括所述标签数据集合的标识与资源文件的标识的对应关系;
[0010]基于所述一级倒排索引,确定所述目标标签数据集合的标识所对应的目标资源文件的标识,得到检索结果。
[0011]根据本专利技术提供的一种资源文件检索方法,所述基于所述二级倒排索引,确定目标标签数据集合的标识,包括:
[0012]遍历所述二级倒排索引;
[0013]确定当前遍历的所述标签数据与所述检索数据集合中的所述检索数据是否相同,若相同,将当前遍历的所述标签数据对应的所述标签数据集合的标识的统计次数增加一次;
[0014]针对每个所述标签数据集合的标识,若所述标签数据集合的标识的统计次数与所述检索数据集合中所述检索数据的数量相同,确定所述标签数据集合的标识为所述目标标签数据集合的标识。
[0015]根据本专利技术提供的一种资源文件检索方法,所述基于所述检索请求,生成所述检索数据集合,包括:
[0016]获取所述检索请求中携带的参数;
[0017]若所述参数的类型是区间类型,基于子区间与所述子区间的标识的对应关系,确定所述参数所在的所述子区间的标识,将所述子区间的标识作为所述检索数据;
[0018]若所述参数的类型不是区间类型,将所述参数作为所述检索数据。
[0019]根据本专利技术提供的一种资源文件检索方法,所述一级倒排索引是通过如下构建方式得到的:
[0020]获取所述资源文件的描述信息,所述资源文件的描述信息包括至少一个所述标签数据集合;
[0021]切分所述资源文件的描述信息,得到至少一个所述标签数据集合;
[0022]针对切分得到的每个所述标签数据集合,若所述标签数据集合已存在,将所述资源文件的标识写入所述标签数据集合的标识对应的位图中,若所述标签数据集合不存在,生成所述标签数据集合的标识以及对应的位图,将所述资源文件的标识写入所述标签数据集合的标识对应的位图中。
[0023]根据本专利技术提供的一种资源文件检索方法,所述二级倒排索引是通过如下构建方式得到的:
[0024]对所述一级倒排索引中每个所述标签数据集合执行如下步骤:
[0025]获取所述标签数据集合中每个所述标签数据,若所述标签数据已存在,将所述标签数据集合的标识写入所述标签数据对应的位图中,若所述标签数据不存在,生成所述标签数据对应的位图并将所述标签数据集合的标识写入所述标签数据对应的位图中。
[0026]根据本专利技术提供的一种资源文件检索方法,所述获取所述标签数据集合中每个所述标签数据,包括:
[0027]若所述标签数据集合中所述标签的类型是区间类型,将所述标签对应的标签数据区间划分成多个子区间,生成每个所述子区间的标识,将所述子区间的标识作为所述标签下的所述标签数据。
[0028]本专利技术还提供一种索引构建方法,包括:
[0029]构建一级倒排索引,所述一级倒排索引包括标签数据集合的标识与资源文件的标识的对应关系,所述标签数据集合包含至少一个标签下的标签数据;
[0030]基于所述一级倒排索引,构建二级倒排索引,所述二级倒排索引包括标签数据与所述标签数据集合的标识的对应关系。
[0031]本专利技术还提供一种资源文件检索装置,包括:
[0032]检索数据生成模块,用于基于检索请求,生成检索数据集合,所述检索数据集合中包含N个检索数据,N为正整数;
[0033]第一获取模块,用于获取预先构建的二级倒排索引,所述二级倒排索引包括标签数据与包含所述标签数据的标签数据集合的标识的对应关系,所述标签数据集合包含至少一个标签下的所述标签数据;
[0034]第一确定模块,用于基于所述二级倒排索引,确定目标标签数据集合的标识,所述目标标签数据集合中包含与所述检索数据集合中N个所述检索数据相同的N个所述标签数据;
[0035]第二获取模块,用于获取预先构建的一级倒排索引,所述一级倒排索引包括所述标签数据集合的标识与资源文件的标识的对应关系;
[0036]第二确定模块,用于基于所述一级倒排索引,确定所述目标标签数据集合的标识所对应的目标资源文件的标识,得到检索结果。
[0037]本专利技术还提供一种倒排索引构建装置,包括:
[0038]第一索引构建模块,用于构建一级倒排索引,所述一级倒排索引包括标签数据集合的标识与资源文件的标识的对应关系,所述标签数据集合包含至少一个标签下的所述标签数据;
[0039]第二索引构建模块,用于基于所述一级倒排索引,构建二级倒排索引,所述二级倒排索引包括标签数据与所述标签数据集合的标识的对应关系。
[0040]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种所述资源文件检索方法,或者上述任一种所述倒排索引构建方法。
[0041]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述资源文件检索方法,或者上述任一种所述倒排索引构建方法。
[0042]本专利技术提供的资源文件检索、倒排索引构建方法,装置和电子设备,通过一级倒排索引和二级倒排索引构成的两级倒排索引进行资源文件的检索,根据二级倒排索引可以快速确定出和标签数据对应的目标标签数据集合的标识,进而通过一级倒排索引迅速确定出目标资源文件的标识,由于标签数据集合针对资源文件具有目标指向性明确、分类定位清晰的特点,所以得出的目标资源文件的标识数量更少但是更加符合需求。因此,这样的资源文件检索方法可以排除掉和检索本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种资源文件检索方法,其特征在于,包括:基于检索请求,生成检索数据集合,所述检索数据集合中包含N个检索数据,N为正整数;获取预先构建的二级倒排索引,所述二级倒排索引包括标签数据与标签数据集合的标识的对应关系,所述标签数据集合包含至少一个标签下的所述标签数据;基于所述二级倒排索引,确定目标标签数据集合的标识,所述目标标签数据集合中包含与所述检索数据集合中N个所述检索数据相同的N个所述标签数据;获取预先构建的一级倒排索引,所述一级倒排索引包括所述标签数据集合的标识与资源文件的标识的对应关系;基于所述一级倒排索引,确定所述目标标签数据集合的标识所对应的目标资源文件的标识,得到检索结果。2.根据权利要求1所述的资源文件检索方法,其特征在于,所述基于所述二级倒排索引,确定目标标签数据集合的标识,包括:遍历所述二级倒排索引;确定当前遍历的所述标签数据与所述检索数据集合中的所述检索数据是否相同,若相同,将当前遍历的所述标签数据对应的所述标签数据集合的标识的统计次数增加一次;针对每个所述标签数据集合的标识,若所述标签数据集合的标识的统计次数与所述检索数据集合中所述检索数据的数量相同,确定所述标签数据集合的标识为所述目标标签数据集合的标识。3.根据权利要求1所述的资源文件检索方法,其特征在于,所述基于所述检索请求,生成所述检索数据集合,包括:获取所述检索请求中携带的参数;若所述参数的类型是区间类型,基于子区间与所述子区间的标识的对应关系,确定所述参数所在的所述子区间的标识,将所述子区间的标识作为所述检索数据;若所述参数的类型不是区间类型,将所述参数作为所述检索数据。4.根据权利要求1至3任一项所述的资源文件检索方法,其特征在于,所述一级倒排索引是通过如下构建方式得到的:获取所述资源文件的描述信息,所述资源文件的描述信息包括至少一个所述标签数据集合;切分所述资源文件的描述信息,得到至少一个所述标签数据集合;针对切分得到的每个所述标签数据集合,若所述标签数据集合已存在,将所述资源文件的标识写入所述标签数据集合的标识对应的位图中,若所述标签数据集合不存在,生成所述标签数据集合的标识以及对应的位图,将所述资源文件的标识写入所述标签数据集合的标识对应的位图中。5.根据权利要求1至3任一项所述的资源文件检索方法,其特征在于,所述二级倒排索引是通过如下构建方式得到的:对所述一级倒排索引中每个所述标签数据集合执行如下步骤:获取所...
【专利技术属性】
技术研发人员:王晶,翁艳,王丹凤,田珊,杜云霞,王立丽,刘陆垚,
申请(专利权)人:三一机器人科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。