System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息检索,特别是涉及一种非结构化数据的检索方法、一种非结构化数据的检索装置、一种电子设备以及一种计算机可读介质。
技术介绍
1、在当前的大数据时代,存在来自多个渠道和来源的大量非结构化数据。这些非结构化数据涵盖了文本、图像、音频和视频等多种形式。传统的数据检索方法在处理快速增长且种类繁多的非结构化数据时,面临着诸多挑战。
2、在对非结构化数据进行检索时,如果采用人工调权的方法,即通过人工来调整不同数据项的权重,通常需要耗费大量的时间和人力资源,成本较高。此外,由于人的主观性、疲劳、知识限制等因素,人工判断可能不够准确或一致,这可能导致检索结果不够精确,无法很好地满足用户的需求或准确反映数据的真实相关性,从而导致人工调权的效果较差。
技术实现思路
1、本专利技术实施例提供一种非结构化数据的检索方法、装置、设备以及计算机可读存储介质,以解决在对非结构化数据进行检索时,人工调权需要耗费大量的时间和人力资源,成本较高且效果较差的问题。
2、本专利技术实施例公开了一种非结构化数据的检索方法,应用于非结构化数据检索系统,所述非结构化数据检索系统至少包括网关层、业务服务层以及数据处理层;所述方法包括:
3、利用所述数据处理层获取预设的非结构化数据;
4、利用所述数据处理层将所述非结构化数据转换为向量,并将所述向量存放入预设的向量存储库中;
5、利用所述网关层获取用户的所述非结构化数据的检索请求,并将所述检索请求发送至所述业
6、利用所述业务服务层将所述检索请求发送至所述数据处理层;
7、基于所述向量存储库,利用所述数据处理层对所述检索请求中的待检索数据进行检索,得到检索结果;
8、通过所述业务服务层利用预设的相似度脚本对所述检索结果进行筛选,得到目标检索结果,并将所述目标检索结果发送至所述网关层;
9、利用所述网关层输出所述目标检索结果。
10、可选地,所述非结构化数据至少包括文本数据、视频数据、图像数据以及音频数据中的一个或多个;所述将所述非结构化数据转换为向量,并将所述向量存放入预设的向量存储库中的步骤包括:
11、利用预设的词嵌入模型将所述文本数据转换为文本向量;
12、利用预设的卷积神经网络模型和/或循环神经网络模型,将所述视频数据、所述图像数据以及所述音频数据分别转换为视频向量、图像向量以及音频向量;
13、将所述文本向量、所述视频向量、所述图像向量以及所述音频向量存放入所述向量存储库中。
14、可选地,所述将所述非结构化数据转换为向量的步骤之前包括:
15、去除所述非结构化数据中的噪声;和/或,
16、对所述非结构化数据进行分类;和/或,
17、提取所述非结构化数据的特征;和/或,
18、对所述非结构化数据进行标准化处理。
19、可选地,所述利用所述数据处理层对所述检索请求中的待检索数据进行检索,得到检索结果的步骤包括:
20、提取所述检索请求中的所述待检索数据;所述待检索数据为待检索的非结构化数据;
21、将所述待检索的非结构化数据进行预处理;
22、将预处理后的所述待检索的非结构化数据转换为待检索向量;
23、利用所述数据处理层对所述待检索向量进行检索,得到所述检索结果。
24、可选地,所述利用所述数据处理层对所述待检索向量进行检索,得到所述检索结果的步骤包括:
25、获取预设长度的检索半径;
26、将所述向量存储库中所述待检索向量周围的所述检索半径内的向量作为所述检索结果。
27、可选地,所述相似度脚本至少涉及余弦相似度和/或欧氏距离。
28、可选地,所述利用所述数据处理层获取预设的非结构化数据的步骤包括:
29、利用所述数据处理层从预设的文件服务器中获取所述非结构化数据。
30、本专利技术实施例还公开了一种非结构化数据的检索装置,应用于非结构化数据检索系统,所述非结构化数据检索系统至少包括网关层、业务服务层以及数据处理层;所述装置包括:
31、数据获取模块,用于利用所述数据处理层获取预设的非结构化数据;
32、向量转换模块,用于利用所述数据处理层将所述非结构化数据转换为向量,并将所述向量存放入预设的向量存储库中;
33、检索请求获取模块,用于利用所述网关层获取用户的所述非结构化数据的检索请求,并将所述检索请求发送至所述业务服务层;
34、检索请求发送模块,用于利用所述业务服务层将所述检索请求发送至所述数据处理层;
35、检索模块,用于基于所述向量存储库,利用所述数据处理层对所述检索请求中的待检索数据进行检索,得到检索结果;
36、筛选模块,用于通过所述业务服务层利用预设的相似度脚本对所述检索结果进行筛选,得到目标检索结果,并将所述目标检索结果发送至所述网关层;
37、输出模块,用于利用所述网关层输出所述目标检索结果。
38、可选地,所述非结构化数据至少包括文本数据、视频数据、图像数据以及音频数据中的一个或多个;所述向量转换模块包括:
39、第一向量转换子模块,用于利用预设的词嵌入模型将所述文本数据转换为文本向量;
40、第二向量转换子模块,用于利用预设的卷积神经网络模型和/或循环神经网络模型,将所述视频数据、所述图像数据以及所述音频数据分别转换为视频向量、图像向量以及音频向量;
41、向量存储子模块,用于将所述文本向量、所述视频向量、所述图像向量以及所述音频向量存放入所述向量存储库中。
42、可选地,所述装置包括:
43、非结构化数据处理模块,用于去除所述非结构化数据中的噪声;和/或,
44、对所述非结构化数据进行分类;和/或,
45、提取所述非结构化数据的特征;和/或,
46、对所述非结构化数据进行标准化处理。
47、可选地,所述检索模块包括:
48、提取子模块,用于提取所述检索请求中的所述待检索数据;所述待检索数据为待检索的非结构化数据;
49、预处理子模块,用于将所述待检索的非结构化数据进行预处理;
50、第三向量转换子模块,用于将预处理后的所述待检索的非结构化数据转换为待检索向量;
51、检索子模块,用于利用所述数据处理层对所述待检索向量进行检索,得到所述检索结果。
52、可选地,所述检索子模块包括:
53、半径获取单元,用于获取预设长度的检索半径;
54、检索结果作为单元,用于将所述向量存储库中所述待检索向量周围的所述检索半径内的向量作为所述检索结果。
55、可选地,所述相似度脚本至少涉及余弦相似度和/或欧氏距离。
56、可选本文档来自技高网...
【技术保护点】
1.一种非结构化数据的检索方法,其特征在于,应用于非结构化数据检索系统,所述非结构化数据检索系统至少包括网关层、业务服务层以及数据处理层,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述非结构化数据至少包括文本数据、视频数据、图像数据以及音频数据中的一个或多个;所述将所述非结构化数据转换为向量,并将所述向量存放入预设的向量存储库中的步骤包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述非结构化数据转换为向量的步骤之前包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述数据处理层对所述检索请求中的待检索数据进行检索,得到检索结果的步骤包括:
5.根据权利要求4所述的方法,其特征在于,所述利用所述数据处理层对所述待检索向量进行检索,得到所述检索结果的步骤包括:
6.根据权利要求1所述的方法,其特征在于,所述相似度脚本至少涉及余弦相似度和/或欧氏距离。
7.根据权利要求1所述的方法,其特征在于,所述利用所述数据处理层获取预设的非结构化数据的步骤包括:
8.一种非结构化数
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
10.一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的方法。
...【技术特征摘要】
1.一种非结构化数据的检索方法,其特征在于,应用于非结构化数据检索系统,所述非结构化数据检索系统至少包括网关层、业务服务层以及数据处理层,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述非结构化数据至少包括文本数据、视频数据、图像数据以及音频数据中的一个或多个;所述将所述非结构化数据转换为向量,并将所述向量存放入预设的向量存储库中的步骤包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述非结构化数据转换为向量的步骤之前包括:
4.根据权利要求1所述的方法,其特征在于,所述利用所述数据处理层对所述检索请求中的待检索数据进行检索,得到检索结果的步骤包括:
5.根据权利要求4所述的方法,其特征在于,所述利用所述数据处理层对所述待检索向量进行检索...
【专利技术属性】
技术研发人员:侯文广,王志海,喻波,安鹏,
申请(专利权)人:北京明朝万达科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。