一种将非结构化数据转化为结构化数据的方法及装置制造方法及图纸

技术编号:20363346 阅读:26 留言:0更新日期:2019-02-16 16:44
本发明专利技术公开了一种将非结构化数据转化为结构化数据的方法,除了可将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容也可查找或管理非结构化数据,提高了非结构化数据的可视化和查询效率、降低了管理难度。另外,本发明专利技术还公开了一种将非结构化数据转化为结构化数据的装置,效果如上。

【技术实现步骤摘要】
一种将非结构化数据转化为结构化数据的方法及装置
本专利技术涉及数据类型转化领域,特别涉及一种将非结构化数据转化为结构化数据的方法及装置。
技术介绍
目前使用的数据类型主要包括三种结构:结构化数据这类信息能够用数据或统一的结构加以表示,并存储在数据库中,有一定的路基结构,可以用二维表来表示。非结构化数据这类信息是指数据结构不固定,无法用二维数据表结构表示的数据,如文档、图像和视频。半结构化数据是介于结构化数据和非结构化数据之间的一种数据形式(如XML、文档),它是具有结构的数据,但是结构变化很大。三种类型的结构化数据的特征是:结构化数据易于管理、查询效率高、可靠度高、可以增加权限控制、管理成本非常低。结构化数据常常存放在关系型数据库中,可以让使用者更方便、更高效的进行搜寻。但是对于结构化数据来说最大的弊端就是不易于扩展,有固定的格式、模板,增加数据属性时异常困难。对于半结构化数据的重要性日趋凸显,主要是因为它的灵活性,半结构化数据是“无模式”的,其数据是自描述的,并且关联了其模式的信息,这种模式可以随时间在单一数据库内任意改变。而对于非结构化数据,虽然具有很好的可扩展性且足够灵活,但是在数据管理、查询方面面临很大的困难,所以将分结构化数据转化为结构化数据显得尤为重要。目前主要是将非结构数据类型的文件标题、存储地址以及标注等可以代表非结构数据类型的主要信息进行转化,利用转化后的文件标题、存储地址以及标注等结构化数据去查找或管理非结构数据类型的文件。但是这种转化方式比较单一,会导致转化后的文件的内容依然是由非结构数据类型组成的文件,仍然存在可视化以及管理问题,并且采用现有技术中的这种转化方式管理难度和查询难度较大。由此可见,如何克服由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题是本领域技术人员亟待解决的问题。
技术实现思路
本申请实施例提供了一种将非结构化数据转化为结构化数据的方法及装置,以解决现有技术中由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题。为解决上述技术问题,本专利技术提供了一种将非结构化数据转化为结构化数据的方法,包括将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,其特征在于,还包括:依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。优选地,当所述待转化的非结构化数据的类型为文本文件时,所述算法模型具体为LDA主题模型。优选地,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体包括:确定所述文本文件的内容中各数据的先验概率;依据所述先验概率计算所述文本文件的内容中各数据的相似度;依据所述相似度确定出所述文本文件的内容中各数据的类型或语义,并采用聚类算法对相同类型或相同语义的数据进行聚类处理以得出所述第一目标信息。优选地,当所述待转化的非结构化数据的类型为图像文件或视频文件时,所述算法模型具体为深度神经网络模型。优选地,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体为:采用所述深度神经网络模型中的RBF径向基函数神经网络提取所述第一目标信息。优选地,当所述待转化的非结构化数据的类型为图像文件时,所述采用所述深度神经网络模型中的RBF径向基函数神经网络提取所述第一目标信息具体包括:对所述图像进行分割处理得出多个子图像;采用所述RBF径向基函数神经网络对各所述子图像进行特征提取,并对所提取的特征进行聚类分析以得出第二目标信息,并将所述第二目标信息作为所述第一目标信息。优选地,当所述待转化的非结构化数据的类型为视频文件时,所述采用所述深度神经网络模型中的RBF径向基函数神经网络提取所述第一目标信息具体包括:依据确定出的分割参数将所述视频文件的内容进行分割处理得出多个子视频;将各所述子视频采用逐帧分析的方式转换为子图像;采用所述RBF径向基函数神经网络对各所述子图像进行特征提取,并对所提取的特征进行聚类分析以得出第三目标信息,并将所述第三目标信息作为所述第一目标信息。优选地,所述根据预定义规则将所述第一目标信息转化为结构化数据具体包括:按照与所述待转化的非结构化数据的文件模板将所述第一目标信息转换为半结构化数据;对所述半结构化数据进行MapReduce并行处理;利用XML技术将所述MapReduce并行处理后的半结构化数据转化为结构化数据。为解决上述技术问题,本专利技术还提供了一种与将非结构化数据转化为结构化数据的方法对应的将非结构化数据转化为结构化数据的装置,包括第一结构转化模块,用于将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,还包括:提取模块,用于依据与待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;第二结构转化模块,用于根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。为解决上述技术问题,本专利技术还提供了另一种与将非结构化数据转化为结构化数据的方法对应的将非结构化数据转化为结构化数据的装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现上述任意一种将非结构化数据转化为结构化数据的步骤。相比于现有技术,本专利技术所提供的一种将非结构化数据转化为结构化数据的方法,除了可以将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可以根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该待转化的非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可以从多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容信息也可查找或管理非结构化数据,可提高非结构化数据的可视化和查询效率、降低管理难度。另外,本专利技术还提供了一种将非结构化数据转化为结构化数据的装置,效果如上。附图说明图1为本专利技术实施例所提供的一种将非结构化数据转化为结构化数据的方法流程图;图2为本专利技术实施例所提供的一种将非结构化数据转化为结构化数据的装置组成示意图;图3为本专利技术实施例所提供的另一种将非结构化数据转化为结构化数据的装置组成示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术的核心是提供一种将非结构化数据转化为结构化数据的方法及装置,可以解决由于非结构化数据本文档来自技高网
...

【技术保护点】
1.一种将非结构化数据转化为结构化数据的方法,包括将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,其特征在于,还包括:依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。

【技术特征摘要】
1.一种将非结构化数据转化为结构化数据的方法,包括将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,其特征在于,还包括:依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。2.根据权利要求1所述的将非结构化数据转化为结构化数据的方法,其特征在于,当所述待转化的非结构化数据的类型为文本文件时,所述算法模型具体为LDA主题模型。3.根据权利要求2所述的将非结构化数据转化为结构化数据的方法,其特征在于,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体包括:确定所述文本文件的内容中各数据的先验概率;依据所述先验概率计算所述文本文件的内容中各数据的相似度;依据所述相似度确定出所述文本文件的内容中各数据的类型或语义,并采用聚类算法对相同类型或相同语义的数据进行聚类处理以得出所述第一目标信息。4.根据权利要求1所述的将非结构化数据转化为结构化数据的方法,其特征在于,当所述待转化的非结构化数据的类型为图像文件或视频文件时,所述算法模型具体为深度神经网络模型。5.根据权利要求4所述的将非结构化数据转化为结构化数据的方法,其特征在于,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体为:采用所述深度神经网络模型中的RBF径向基函数神经网络提取所述第一目标信息。6.根据权利要求5所述的将非结构化数据转化为结构化数据的方法,其特征在于,当所述待转化的非结构化数据的类型为图像文件时,所述采用所述深度神经网络模型中的RBF径向基函数神经网络提取所述第一目标信息具体包括:对所述图像文件进行分割处理得...

【专利技术属性】
技术研发人员:黄文琦明哲许爱东滑春波陈华军杨航关泽武
申请(专利权)人:南方电网科学研究院有限责任公司中国南方电网有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1