【技术实现步骤摘要】
资源文件检索、倒排索引构建方法、装置和电子设备
[0001]本专利技术涉及数据处理
,尤其涉及一种资源文件检索、倒排索引构建方法、装置和电子设备。
技术介绍
[0002]索引是一种高效的数据检索方式,随着计算机技术高速发展,对于搜索引擎,为了提高检索效率,出现了满足其海量及实时检索的倒排索引相关技术及原理。
[0003]通过倒排索引可以根据关键词快速获取包含该关键词的检索结果。但是在某些场景下,当关键词为多个时,现有的倒排索引的检索精确度低,检索效率低。
技术实现思路
[0004]本专利技术提供一种资源文件检索、倒排索引构建方法、装置和电子设备,用以解决现有技术中某些场景下倒排索引存在的检索精确度低和检索效率低的问题。
[0005]本专利技术提供一种资源文件检索方法,包括:
[0006]基于检索请求,生成检索数据集合,所述检索数据集合中包含N个检索数据,N为正整数;
[0007]获取预先构建的二级倒排索引,所述二级倒排索引包括标签数据与标签数据集合的标识的对应关系,所述标 ...
【技术保护点】
【技术特征摘要】
1.一种资源文件检索方法,其特征在于,包括:基于检索请求,生成检索数据集合,所述检索数据集合中包含N个检索数据,N为正整数;获取预先构建的二级倒排索引,所述二级倒排索引包括标签数据与标签数据集合的标识的对应关系,所述标签数据集合包含至少一个标签下的所述标签数据;基于所述二级倒排索引,确定目标标签数据集合的标识,所述目标标签数据集合中包含与所述检索数据集合中N个所述检索数据相同的N个所述标签数据;获取预先构建的一级倒排索引,所述一级倒排索引包括所述标签数据集合的标识与资源文件的标识的对应关系;基于所述一级倒排索引,确定所述目标标签数据集合的标识所对应的目标资源文件的标识,得到检索结果。2.根据权利要求1所述的资源文件检索方法,其特征在于,所述基于所述二级倒排索引,确定目标标签数据集合的标识,包括:遍历所述二级倒排索引;确定当前遍历的所述标签数据与所述检索数据集合中的所述检索数据是否相同,若相同,将当前遍历的所述标签数据对应的所述标签数据集合的标识的统计次数增加一次;针对每个所述标签数据集合的标识,若所述标签数据集合的标识的统计次数与所述检索数据集合中所述检索数据的数量相同,确定所述标签数据集合的标识为所述目标标签数据集合的标识。3.根据权利要求1所述的资源文件检索方法,其特征在于,所述基于所述检索请求,生成所述检索数据集合,包括:获取所述检索请求中携带的参数;若所述参数的类型是区间类型,基于子区间与所述子区间的标识的对应关系,确定所述参数所在的所述子区间的标识,将所述子区间的标识作为所述检索数据;若所述参数的类型不是区间类型,将所述参数作为所述检索数据。4.根据权利要求1至3任一项所述的资源文件检索方法,其特征在于,所述一级倒排索引是通过如下构建方式得到的:获取所述资源文件的描述信息,所述资源文件的描述信息包括至少一个所述标签数据集合;切分所述资源文件的描述信息,得到至少一个所述标签数据集合;针对切分得到的每个所述标签数据集合,若所述标签数据集合已存在,将所述资源文件的标识写入所述标签数据集合的标识对应的位图中,若所述标签数据集合不存在,生成所述标签数据集合的标识以及对应的位图,将所述资源文件的标识写入所述标签数据集合的标识对应的位图中。5.根据权利要求1至3任一项所述的资源文件检索方法,其特征在于,所述二级倒排索引是通过如下构建方式得到的:对所述一级倒排索引中每个所述标签数据集合执行如下步骤:获取所...
【专利技术属性】
技术研发人员:王晶,翁艳,王丹凤,田珊,杜云霞,王立丽,刘陆垚,
申请(专利权)人:三一机器人科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。