System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据检索,尤其涉及一种数据检索的方法及装置、网络附加存储设备。
技术介绍
1、由于用户在浏览网站或使用应用程序时,大多有数据检索的需求,因此数据检索功能逐渐成为当前各网站、软件的一个主要功能,用户能够通过检索便捷地获取到所需信息。
2、实践发现,现有的检索功能大多只通过传统的文本检索方式实现数据检索,然而,传统检索方式难以处理针对非结构化数据(例如:文本、图像、音频等)的检索需求。因此,提出一种能够提高数据检索灵活性,以向用户提供更为高效的检索服务的技术方案显得尤为重要。
技术实现思路
1、本专利技术提供一种数据检索的方法及装置、网络附加存储设备,能够提高数据检索灵活性,有利于向用户提供更为高效的检索服务。
2、为了解决上述技术问题,本专利技术第一方面公开了一种数据检索的方法,所述方法应用于多模态检索系统,所述多模态检索系统包括向量数据库和预先训练好的特征提取模型,所述方法包括:
3、获取待检索数据,所述待检索数据包括至少一种待检索子数据;每种所述待检索子数据包括文本数据、图像数据和视频数据中的一种;
4、基于所述特征提取模型,对预处理后的所述待检索数据执行特征提取融合操作,得到所述待检索数据对应的融合特征向量;
5、基于所述向量数据库对应的目标索引结构,确定所述融合特征向量对应的向量索引;
6、基于确定出的检索算法,在所述向量数据库中执行关于所述向量索引的检索操作,得到所述待检索数据对应的检索结
7、作为一种可选的实施方式,在本专利技术第一方面中,所述特征提取模型包括至少一种特征提取子模型,每种所述特征提取子模型与至少一种所述数据类型之间存在映射关系;
8、其中,所述基于所述特征提取模型,对预处理后的所述待检索数据执行特征提取融合操作,得到所述待检索数据对应的融合特征向量,包括:
9、从所述特征提取模型中确定预处理后的所述待检索数据中每种所述待检索子数据对应的特征提取子模型;
10、对于每种所述待检索子数据,基于所述特征提取子模型,对该待检索子数据执行特征提取操作,得到该待检索子数据对应的目标特征向量;
11、根据所有所述待检索子数据对应的目标特征向量,确定所述待检索数据对应的融合特征向量。
12、作为一种可选的实施方式,在本专利技术第一方面中,所述从所述特征提取模型中确定预处理后的所述待检索数据中每种所述待检索子数据对应的特征提取子模型,包括:
13、对于每种所述待检索子数据,当该待检索子数据为所述图像数据或者所述视频数据时,确定该待检索子数据对应的特征提取子模型为图像特征提取子模型,所述第一特征提取子模型采用自注意力机制;
14、对于每种所述待检索子数据,当该待检索子数据为所述文本数据时,确定该待检索子数据对应的特征提取子模型为第二特征提取子模型;
15、以及,所述对于每种所述待检索子数据,基于所述特征提取子模型,对该待检索子数据执行特征提取操作,得到该待检索子数据对应的目标特征向量,包括:
16、对于每种所述待检索子数据,当该待检索子数据为所述图像数据或者所述视频数据时,基于所述第一特征提取子模型的自注意力机制,提取该待检索子数据对应的语义特征,作为该待检索子数据对应的目标特征向量;
17、对于每种所述待检索子数据,当该待检索子数据为所述文本数据时,基于所述第二特征提取子模型,提取该待检索子数据对应的句子级别特征,作为该待检索子数据对应的目标特征向量。
18、作为一种可选的实施方式,在本专利技术第一方面中,所述根据所有所述待检索子数据对应的目标特征向量,确定所述待检索数据对应的融合特征向量,包括:
19、当所述待检索数据仅包括一种所述待检索子数据时,将该待检索子数据对应的目标特征向量确定为所述待检索数据对应的融合特征向量;
20、当所述待检索数据包括至少两种所述待检索子数据时,基于所述多模态检索系统对应的多模态融合策略,对所有所述待检索子数据对应的目标特征向量进行特征融合处理,得到所述待检索数据对应的融合特征向量。
21、作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
22、获取所述待检索数据对应的业务场景以及所述待检索数据对应的检索需求;
23、以及,所述基于确定出的检索算法,在所述向量数据库中执行关于所述向量索引的检索操作,得到所述待检索数据对应的检索结果,包括:
24、基于确定出的检索算法,在所述向量数据库中执行关于所述向量索引的检索操作,得到多个候选检索结果;
25、分析每个所述候选检索结果与所述业务场景的业务关联度;
26、从所有所述业务关联度中筛选出大于或等于预设业务关联度的至少一个目标关联度;
27、根据所有所述目标关联度对应的候选检索结果,确定满足所述检索需求的候选检索结果作为所述待检索数据对应的检索结果。
28、作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
29、获取所述向量数据库对应的测试向量维度以及所述测试向量维度对应的测试向量数据集;
30、基于所述测试向量维度对应的测试向量数据集,在所述向量数据库中执行关于所述测试向量数据集的检索操作,得到所述测试向量维度对应的测试检索结果;
31、分析所述测试检索结果,得到所述测试向量维度对应的检索性能;
32、基于预先确定出的检索性能标准和所述检索性能,调整所述测试向量维度,得到所述向量数据库对应的目标向量维度;
33、以及,所述基于所述向量数据库对应的目标索引结构,确定所述融合特征向量对应的向量索引,包括:
34、基于所述向量数据库对应的目标索引结构,将所述融合特征向量转化为所述目标向量维度对应的向量索引。
35、作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
36、获取待存储的多模态数据集,所述多模态数据集包括多组多模态数据;
37、基于所述多模态检索系统对应的数据压缩接口,对所述多模态数据集执行压缩操作,得到所述多模态数据集对应的压缩文件集合,所述压缩文件集合包括多个压缩文件;
38、从所述压缩文件集合中提取出压缩文件队列;
39、判断所述压缩文件队列是否满足预设数据处理条件;
40、当判断出所述压缩文件队列满足所述预设数据处理条件时,基于所述多模态检索系统对应的推理接口,对所述压缩文件队列执行批处理操作,得到所述目标向量维度对应的待存储向量数据集;
41、将所述待存储向量数据集存储至所述向量数据库。
42、本专利技术第二方面公开了一种数据检索的装置,所述装置应用于多模态检索系统,所述多模态检索系统包括向量数据库和预先训练好的特征提取模型,所述装置包括:
43、获取模块,用于获取待检索数据,所本文档来自技高网...
【技术保护点】
1.一种数据检索的方法,其特征在于,所述方法应用于多模态检索系统,所述多模态检索系统包括向量数据库和预先训练好的特征提取模型,所述方法包括:
2.根据权利要求1所述的数据检索的方法,其特征在于,所述特征提取模型包括至少一种特征提取子模型,每种所述特征提取子模型与至少一种所述数据类型之间存在映射关系;
3.根据权利要求2所述的数据检索的方法,其特征在于,所述从所述特征提取模型中确定预处理后的所述待检索数据中每种所述待检索子数据对应的特征提取子模型,包括:
4.根据权利要求2所述的数据检索的方法,其特征在于,所述根据所有所述待检索子数据对应的目标特征向量,确定所述待检索数据对应的融合特征向量,包括:
5.根据权利要求1所述的数据检索的方法,其特征在于,所述方法还包括:
6.根据权利要求1-5任一项所述的数据检索的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的数据检索的方法,其特征在于,所述方法还包括:
8.一种数据检索的装置,其特征在于,所述装置应用于多模态检索系统,所述多模态检索系统包
9.一种网络附加存储设备,其特征在于,所述网络附加存储设备包括:
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的数据检索的方法。
...【技术特征摘要】
1.一种数据检索的方法,其特征在于,所述方法应用于多模态检索系统,所述多模态检索系统包括向量数据库和预先训练好的特征提取模型,所述方法包括:
2.根据权利要求1所述的数据检索的方法,其特征在于,所述特征提取模型包括至少一种特征提取子模型,每种所述特征提取子模型与至少一种所述数据类型之间存在映射关系;
3.根据权利要求2所述的数据检索的方法,其特征在于,所述从所述特征提取模型中确定预处理后的所述待检索数据中每种所述待检索子数据对应的特征提取子模型,包括:
4.根据权利要求2所述的数据检索的方法,其特征在于,所述根据所有所述待检索子数据对应的目标特征向量,确定所述待检索数据对应的融合特征向量,包括:
...【专利技术属性】
技术研发人员:张清森,陈俊灵,王博,曾志辉,
申请(专利权)人:深圳市绿联科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。