System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种非结构化数据的处理方法、装置、设备及存储介质。
技术介绍
1、非结构化数据的语义信息指的是数据中包含的有关含义、关系、主题和实体的信息,这些信息在非结构化数据中通常以文本、图像、音频等形式存在。已有的非结构化数据的处理方法绝大多数通过人工智能算法将存储在分布式文件系统中的非结构化数据进行特征提取,再将提取的特征形成特征索引表,用以对非结构化数据进行相似性搜索。然而,随着企业的业务不断增多,所产生的文本、图像、音频等形式的非结构化数据呈指数增长,与非结构化数据量的增长对应的特征索引表中的内容也会与之增加,这将会极大降低索引效率,并且用户在面对大量特征的选项时,难以做出明智的选择,对非结构化数据的检索和使用极其不方便,导致难以管理和有效地利用非结构化数据。
2、因此,专利技术人提供了一种非结构化数据的处理方法、装置、设备及存储介质。
技术实现思路
1、(1)要解决的技术问题
2、本申请实施例提供了一种非结构化数据的处理方法、装置、设备及存储介质,要解决的技术问题是:随着非结构化数据量不断增多,特征索引表也会不断膨胀,从而降低检索非结构数据的效率,增大非结构化数据检索的复杂度,用户在面对大量特征的选项时,难以做出准确的选择,增大管理和使用非结构化数据的难度。
3、(2)技术方案
4、第一方面,本申请实施例提供了一种非结构化数据的处理方法,包括:
5、根据数据需求文档的主题,得到过滤表,其中,所述数
6、将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
7、通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
8、在其中一个实施例中,所述根据数据需求文档的主题,得到过滤表之前,还包括:
9、根据多种数据源采集非结构化数据,其中,所述数据源包括文本、图像、音频以及视频;
10、对所述非结构化数据进行预处理,其中,所述预处理包括数据清洗、纠错以及格式标准化;
11、将预处理后的所述非结构化数据存储至数据库。
12、在其中一个实施例中,所述根据数据需求文档的主题,得到过滤表之前,还包括:
13、根据所述非结构化数据的关键特征,得到初始特征索引表。
14、在其中一个实施例中,所述根据所述非结构化数据的关键特征,得到初始特征索引表,包括:
15、提取所述非结构化数据的关键特征,将所述关键特征存储至初始特征索引表。
16、在其中一个实施例中,所述根据数据需求文档的主题,得到过滤表,包括:
17、提取数据需求文档的主题,将所述主题存储至过滤表。
18、在其中一个实施例中,所述将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表,包括:
19、将所述初始特征索引表中的关键特征与所述过滤表中的主题进行匹配;
20、根据匹配结果,将匹配成功的所述关键特征和所述主题存储至最终特征索引表。
21、在其中一个实施例中,所述通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索,包括:
22、检索所述最终特征索引表,实现对所述非结构化数据的管理以及相似性搜索。
23、第二方面,本申请实施例提供了一种非结构化数据的处理装置,包括:
24、过滤模块,用于根据数据需求文档的主题,得到过滤表,其中,所述数据需求文档包括用户查询、关键字和描述,所述主题表征用户对非结构化数据的需求和兴趣;
25、匹配模块,用于将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表;
26、检索模块,用于通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索。
27、第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述的非结构化数据的处理方法。
28、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述的非结构化数据的处理方法。
29、(3)有益效果
30、本申请的上述技术方案具有如下优点:
31、本申请实施例第一方面提供的非结构化数据的处理方法,通过根据数据需求文档的主题得到过滤表,将非结构化数据的初始特征索引表与过滤表进行匹配得到最终特征索引表,通过最终特征索引表对非结构化数据进行管理以及相似性搜索,能够减少非数据需求的特征和削减与日俱增的数据特征,提高非结构化数据的检索效率,用户能够更加直观地选择所需数据,检索和使用非结构化数据更加方便,易于管理。
32、可以理解的是,上述第二方面、第三方面和第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本文档来自技高网...【技术保护点】
1.一种非结构化数据的处理方法,其特征在于,包括:
2.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表之前,还包括:
3.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表之前,还包括:
4.如权利要求3所述的非结构化数据的处理方法,其特征在于,所述根据所述非结构化数据的关键特征,得到初始特征索引表,包括:
5.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表,包括:
6.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述将所述非结构化数据的初始特征索引表与所述过滤表进行匹配,得到最终特征索引表,包括:
7.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述通过所述最终特征索引表对所述非结构化数据进行管理以及相似性搜索,包括:
8.一种非结构化数据的处理装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的非结构化数据的处理方法。
...【技术特征摘要】
1.一种非结构化数据的处理方法,其特征在于,包括:
2.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表之前,还包括:
3.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表之前,还包括:
4.如权利要求3所述的非结构化数据的处理方法,其特征在于,所述根据所述非结构化数据的关键特征,得到初始特征索引表,包括:
5.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述根据数据需求文档的主题,得到过滤表,包括:
6.如权利要求1所述的非结构化数据的处理方法,其特征在于,所述将所述非结构化数据的初始特...
【专利技术属性】
技术研发人员:刘涛,丰云礼,师杰,叶毅,翟旻昊,李家葶,
申请(专利权)人:中国船舶集团有限公司系统工程研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。