【技术实现步骤摘要】
构建索引的方法、装置、电子设备和存储介质
[0001]本申请实施例涉及搜索技术,尤其涉及一种构建索引的方法、装置、电子设备和存储介质。
技术介绍
[0002]用户可以通过终端设备的网页或者搜索应用程序进行信息搜索,以网页为例,用户在网页的输入框中输入文本进行搜索,这种搜索方式称为文本搜索。随着搜索技术的发展,用户还可以输入图片或视频进行搜索,终端设备会显示图片或视频的搜索结果,这种搜索方式称为向量搜索。但无论是文字搜索还是向量搜索,终端设备会将用户输入的文本、图片或视频发送至服务器,由服务器根据构建的索引得到搜索结果。其中,索引用于表征文本与文档的映射关系,或向量与文档的映射关系。
[0003]随着向量搜索的出现,文本和向量联合搜索的需求也应运而生。为了达到同时搜索文本和向量的目的,可以在服务器中集成文本搜索系统和向量搜索系统,文本搜索系统和向量搜索系统可以分别构建各自的索引。现有技术中,为了保证两个系统构建的索引的一致性,向量搜索系统采用与文本搜索系统生成索引相同的方式,依次生成包括多个索引的小文件,小文件生成后, ...
【技术保护点】
【技术特征摘要】
1.一种构建索引的方法,其特征在于,包括:接收来自第一终端设备的文档;根据所述文档,生成第一索引和第二索引,所述第一索引表征向量和所述文档的映射关系,所述第二索引表征文本与所述文档的映射关系;将所述第一索引存储至第一类型的文件集合中,所述第一索引处于可用状态,处于可用状态的第一索引用于通过向量搜索与搜索内容关联的所述文档;将所述第二索引存储至第二类型的文件集合中,且建立所述第一索引、所述第二索引和所述文档的映射关系。2.根据权利要求1所述的方法,其特征在于,所述第一类型的文件集合中包括至少一个第一文件,所述第一文件用于存储第一索引,所述将所述第一索引存储至第一类型的文件集合中,包括:将所述第一索引写入一个第一文件中。3.根据权利要求2所述的方法,其特征在于,所述第二类型的文件集合中包括至少一个第二文件,所述第二文件用于存储第二索引,所述将所述第二索引存储至第二类型的文件集合中,包括:将所述第二索引写入一个第二文件中。4.根据权利要求3所述的方法,其特征在于,所述建立所述第一索引、所述第二索引和所述文档的映射关系,包括:建立第一文件中的所述第一索引、第二文件中的所述第二索引和所述文档的映射关系。5.根据权利要求2所述的方法,其特征在于,所述将所述第一索引写入一个第一文件中,包括:若所述第一类型的文件集合中的第i个第一文件中已写入的索引的数量小于第一阈值,则将所述第一索引写入所述第i个第一文件中,所述i为大于或等于1的整数;若所述第i个第一文件中已写入的索引的数量等于所述第一阈值,则新建第i+1个第一文件,且将所述第一索引写入所述第i+1个第一文件中。6.根据权利要求3所述的方法,其特征在于,所述将所述第二索引写入一个第二文件中,包括:若所述第二类型的文件集合中的第j个第二文件中已写入的索引的数量小于第二阈值,则将所述第二索引写入所述第j个第二文件中,所述j为大于或等于1的整数;若所述第j个第二文件中已写入的索引的数量等于所述第二阈值,则新建第j+1个第二文件,且将所述第二索引写入所述第j+1个第二文件中。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:若所述第j个第二文件中已写入的索引的数量等于所述第二阈值,则将所述第j个第二文件从写入模式转换为只读模式,转换为所述只读模式的所述第j个第二文件中的第二索引处于可用状态,处于可用状态的第二索引用于通过文本搜索与搜索内容关联的所述文档。8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:接收来自所述第一终端设备的第二文件的转换时长,所述转换时长为第二文件从写入
模式转换为只读模式的时长;根据所述转换时长,确定所述第二阈值。9.根据权利要求6-8中任一项所述的方法,其特征在于,所述方法还包括:若转换为只读模式的第二文件的占用内存达到预设内存,则将所述转换为只读模式的第二文件合并;或者,若当前可用负载大于预设负载,则将所述转换为只读模式的第二文件合并。10.根据权利要求9所述的方法,其特征在于,所述将所述已写入的索引的数量等于所述第二阈值的第二文件合并之后,还包括:建立合并后的第二文件中的所述第二索引、第一文件中的所述第一索引和所述文档的映射关系。11.根据权利要求1-10中任一项所述的方法,其特征在于,所述第二类型的文件集合中包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。