System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种索引构建方法、装置、终端和计算机可读存储介质。
技术介绍
1、近年来,为了满足数据的查询检索需求,数据索引构建技术得到了快速发展。在数据索引构建技术中,由于基于向量进行索引构建效率较高,使得基于向量进行向量索引构建成为目前较为常见的索引构建技术,但是当向量非常多时,例如百亿以上,通过单机进行向量索引构建非常慢,已经难以满足实际需要。
技术实现思路
1、本申请实施例提供一种索引构建方法、装置、终端和计算机可读存储介质,可以解决当向量非常多时,通过单机进行向量索引构建非常慢,已经难以满足实际需要的技术问题。
2、第一方面,本申请实施例提供一种索引构建方法,所述方法包括:
3、确定待索引向量的索引数据组数,基于所述索引数据组数从多层索引模型中确定目标索引层;
4、从所述目标索引层中获取所述待索引向量对应的目标中心点;其中,所述目标索引层中每个中心点用于对应一组索引数据,每组索引数据对应一化简模块;
5、基于所述目标中心点从所述化简模块中确定所述待索引向量对应的目标化简模块;
6、基于所述目标化简模块调用索引接口对所述待索引向量构建索引。
7、可选地,所述确定待索引向量的索引数据组数,包括:
8、获取待构建索引的待索引向量的构建量,确定与所述构建量相匹配的索引数据组数。
9、可选地,所述基于所述索引数据组数从多层索引模型中确定目标索引层,包括:
10、
11、可选地,所述从所述目标索引层中获取所述待索引向量对应的目标中心点,包括:
12、基于模型分组配置文件中的上层索引层,逐层对所述待索引向量进行查找处理,得到查找处理结果;其中,所述模型分组配置文件包括所述目标索引层,以及所述多层索引模型中目标索引层对应的上层索引层;
13、基于所述查找处理结果,从所述目标索引层的中心点中确定与所述待索引向量对应的目标中心点。
14、可选地,所述基于所述模型分组配置文件中的上层索引层,逐层对所述待索引向量进行查找处理,得到查找处理结果,包括:
15、基于所述上层索引层中每层索引层的中心点连接关系,以及每层索引层的中心点与所述待索引向量的距离信息,逐层对所述待索引向量进行跨层映射中心点查找,直到得到所述上层索引层对应的尾层索引层的目标跨层映射中心点;
16、所述基于所述查找处理结果从所述目标索引层的中心点中确定与所述待索引向量对应的目标中心点,包括:
17、从所述目标索引层的中心点中确定与所述目标跨层映射中心点对应的中心点,基于所述目标跨层映射中心点对应的中心点和所述待索引向量,确定所述待索引向量对应的目标中心点。
18、可选地,所述基于所述目标化简模块调用索引接口对所述待索引向量构建索引,包括:
19、基于所述目标化简模块调用索引接口添加所述待索引向量,得到索引化简模块;
20、基于所述索引化简模块以及所述模型分组配置文件得到目标分布式索引。
21、可选地,所述方法还包括:
22、基于所述多层索引模型确定所述目标索引层的下层索引层;
23、基于所述下层索引层构建与所述目标索引层中每个中心点对应的化简模块。
24、可选地,所述方法还包括:
25、基于分层可导航小世界图确定所述多层索引模型;
26、基于所述索引数据组数从分层可导航小世界图中确定目标可导航小世界图,
27、基于所述目标可导航小世界图确定所述目标索引层。
28、可选地,所述基于所述索引数据组数从分层可导航小世界图中确定目标可导航小世界图,包括:
29、从分层可导航小世界图中确定中心点数与所述索引数据组数匹配的目标可导航小世界图。
30、第二方面,本申请实施例提供一种索引构建装置,所述装置包括:
31、第一确定模块,适于确定待索引向量的索引数据组数,基于所述索引数据组数从多层索引模型中确定目标索引层;
32、获取模块,适于从所述目标索引层中获取所述待索引向量对应的目标中心点;其中,所述目标索引层中每个中心点用于对应一组索引数据,每组索引数据对应一化简模块;
33、第二确定模块,适于基于所述目标中心点从所述化简模块中确定所述待索引向量对应的目标化简模块;
34、索引构建模块,适于基于所述目标化简模块调用索引接口对所述待索引向量构建索引。
35、第三方面,本申请实施例提供一种终端,该终端包括:
36、处理器;以及
37、被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述中任一项所述的方法。
38、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述中任一项所述的方法。
39、本申请实施例一些实施例提供的技术方案带来的有益效果至少包括:首先基于待索引向量划分索引数据组数,根据划分得到的索引数据组数从多层索引模型中找到与索引数据组数对应的目标索引层,并且基于待索引向量确定目标索引层中的目标中心点,由于目标索引层中每个中心点用于对应一组索引数据,每组索引数据对应一化简模块,因此可以基于目标中心点从化简模块中确定待索引向量对应的目标化简模块,最后基于目标化简模块调用索引接口对待索引向量构建索引,本申请实施例通过目标索引层中不同中心点对应不同的化简模块,实现了将每个待索引向量划分至对应的化简模块中以实现对待索引向量的分布式构建,可以解决当向量非常多时,通过单机进行向量索引构建非常慢,难以满足实际需要的技术问题。
本文档来自技高网...【技术保护点】
1.一种索引构建方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,所述确定待索引向量的索引数据组数,包括:
3.根据权利要求1所述的方法,其中,所述基于所述索引数据组数从多层索引模型中确定目标索引层,包括:
4.根据权利要求1所述的方法,其中,所述从所述目标索引层中获取所述待索引向量对应的目标中心点,包括:
5.根据权利要求4所述的方法,其中,所述基于所述模型分组配置文件中的上层索引层,逐层对所述待索引向量进行查找处理,得到查找处理结果,包括:
6.根据权利要求4所述的方法,其中,所述基于所述目标化简模块调用索引接口对所述待索引向量构建索引,包括:
7.根据权利要求1所述的方法,其中,所述方法还包括:
8.一种索引构建装置,其中,所述装置包括:
9.一种终端,其中,该终端包括:
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1至7中任一项所述的方法。
【技术特征摘要】
1.一种索引构建方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,所述确定待索引向量的索引数据组数,包括:
3.根据权利要求1所述的方法,其中,所述基于所述索引数据组数从多层索引模型中确定目标索引层,包括:
4.根据权利要求1所述的方法,其中,所述从所述目标索引层中获取所述待索引向量对应的目标中心点,包括:
5.根据权利要求4所述的方法,其中,所述基于所述模型分组配置文件中的上层索引层,逐层对所述待索引向量进行查找处...
【专利技术属性】
技术研发人员:王勇,侯雅新,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。