System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种多模态数据检索方法、装置、设备及可读存储介质。
技术介绍
1、随着社会、科技的不断发展和进步,各行各业的数据越来越呈现出不同数据源的数据,将不同种类数据进行融合成为一种趋势。由于现实世界中信息的复杂性,单一模态的数据往往无法全面、准确地表示出事物的真实情况,因此需要将不同模态的数据进行融合,以提高数据的精度和可靠性。
2、随着跨多种模态数据混合使用的场景和需求不断增加,对多模态数据的存储、管理和查询提出了更高的要求。现有技术中,通常利用人工智能深度学习、大模型技术对多模态数据进行特征提取,使各种模态的数据特征对齐,并存储到向量数据库中。
3、但是,现有技术提取出来的特征通常以向量矩阵的形式存在,难以被用户理解,且无法对错误特征向量进行纠偏。当对多模态数据检索时,需要将检索关键词转化为特征向量,再用该特征向量与多模态数据提取的特征向量进行比较,计算两个特征向量的相似度,这种检索方法容易造成双向偏差,使得检索结果出现较大误差。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种多模态数据检索方法、装置、设备及可读存储介质,通过对非结构化数据进行语义化特征提取,非结构化数据的语义化特征可解释,易于纠偏维护,避免检索时双向特征向量化造成的偏差。
2、第一方面,本公开实施例提供一种多模态数据检索方法,所述方法包括:
3、获取多模态数据,所述多模态数据包括结构化数据、半结构化数据以
4、对所述半结构化数据进行结构化提取,得到所述半结构化数据对应的转化后结构化数据;
5、对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据;
6、将所述结构化数据以及所述转化后结构化数据存储到数据仓库中;
7、基于目标关键词对所述数据仓库进行检索,得到检索结果。
8、在一些实施例中,所述对所述半结构化数据进行结构化提取,得到所述半结构化数据对应的转化后结构化数据,包括:
9、基于所述半结构化数据中的字段名、字段值对所述半结构化数据进行结构化提取,得到多组以字段名与字段值组合的键值对数据;
10、将所述多组以字段名与字段值组合的键值对数据确定为所述半结构化数据对应的转化后结构化数据。
11、在一些实施例中,所述对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据,包括:
12、根据所述非结构化数据的文件类型确定出与所述非结构化数据对应的语义化特征提取方式;
13、基于与所述非结构化数据对应的语义化特征提取方式对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据。
14、在一些实施例中,所述将所述结构化数据以及所述转化后结构化数据存储到数据仓库中,包括:
15、确定出所述结构化数据对应的业务元数据以及所述转化后结构化数据对应的业务元数据,所述业务元数据中包括各自的原始文件的文件标识;
16、将所述半结构化数据的原始文件、以及所述非结构化数据的原始文件存储到文件存储系统中,确定出所述转化后结构化数据对应的技术元数据;
17、基于原始文件的文件标识将所述结构化数据、所述结构化数据对应的业务元数据、所述转化后结构化数据、所述转化后结构化数据对应的业务元数据、以及所述转化后结构化数据对应的技术元数据进行关联并存储到数据仓库中。
18、在一些实施例中,所述技术元数据包括如下至少一种:
19、原始文件的文件标识、文件名、文件格式、文件大小、文件类型、文件存储路径、文件校验值、文件来源、文件上传时间。
20、在一些实施例中,所述基于目标关键词对所述数据仓库进行检索,得到检索结果,包括:
21、从所述数据仓库的所述结构化数据、所述结构化数据对应的业务元数据、所述转化后结构化数据、以及所述转化后结构化数据对应的业务元数据中检索出与所述目标关键词匹配的目标数据;
22、将与所述目标关键词匹配的目标数据确定为检索结果。
23、在一些实施例中,所述基于目标关键词对所述数据仓库进行检索,得到检索结果之后,所述方法还包括:
24、对于检索结果中的转化后结构化数据,基于所述转化后结构化数据中的原始文件的文件标识从所述转化后结构化数据对应的技术元数据中查找出文件存储路径;
25、基于所述文件存储路径从所述文件存储系统中下载所述检索结果中的转化后结构化数据的原始文件。
26、第二方面,本公开实施例提供一种多模态数据检索装置,所述装置包括:
27、获取模块,用于获取多模态数据,所述多模态数据包括结构化数据、半结构化数据以及非结构化数据;
28、第一得到模块,用于对所述半结构化数据进行结构化提取,得到所述半结构化数据对应的转化后结构化数据;
29、第二得到模块,用于对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据;
30、存储模块,用于将所述结构化数据以及所述转化后结构化数据存储到数据仓库中;
31、检索模块,用于基于目标关键词对所述数据仓库进行检索,得到检索结果。
32、第三方面,本公开实施例提供一种电子设备,包括:
33、存储器;
34、处理器;以及
35、计算机程序;
36、其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
37、第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面所述的方法。
38、第五方面,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如第一方面所述的方法。
39、本公开实施例提供的多模态数据检索方法、装置、设备及可读存储介质,通过获取多模态数据,所述多模态数据包括结构化数据、半结构化数据以及非结构化数据,对所述半结构化数据进行结构化提取,得到所述半结构化数据对应的转化后结构化数据,对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据,将所述结构化数据以及所述转化后结构化数据存储到数据仓库中,基于目标关键词对所述数据仓库进行检索,得到检索结果。相较于现有技术,本公开实施例解决了现有检索方法容易造成双向偏差,使得检索结果出现较大误差的问题,通过对非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据,非结构化数据的语义化特征容易理解、可解释,易于纠偏维护,避免检索时双向特征向量化造成的偏差,检索结果误差较小。
本文档来自技高网...【技术保护点】
1.一种多模态数据检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述半结构化数据进行结构化提取,得到所述半结构化数据对应的转化后结构化数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述结构化数据以及所述转化后结构化数据存储到数据仓库中,包括:
5.根据权利要求4所述的方法,其特征在于,所述技术元数据包括如下至少一种:
6.根据权利要求4所述的方法,其特征在于,所述基于目标关键词对所述数据仓库进行检索,得到检索结果,包括:
7.根据权利要求4所述的方法,其特征在于,所述基于目标关键词对所述数据仓库进行检索,得到检索结果之后,所述方法还包括:
8.一种多模态数据检索装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于
...【技术特征摘要】
1.一种多模态数据检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述半结构化数据进行结构化提取,得到所述半结构化数据对应的转化后结构化数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述非结构化数据进行语义化特征提取,得到所述非结构化数据对应的转化后结构化数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述结构化数据以及所述转化后结构化数据存储到数据仓库中,包括:
5.根据权利要求4所述的方法,其特征在于,所述技...
【专利技术属性】
技术研发人员:林靖生,张弥,邹伟伟,
申请(专利权)人:北京金山云网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。