一种海量非结构化数据处理方法和装置制造方法及图纸

技术编号:20545894 阅读:32 留言:0更新日期:2019-03-09 18:49
本发明专利技术提供一种海量非结构化数据处理方法及装置,属于数据处理技术领域。本发明专利技术的海量非结构化数据处理方法包括对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。本发明专利技术的一种海量非结构化数据处理方法和装置可实现海量非结构化数据的快速查询。

A Massive Unstructured Data Processing Method and Device

The invention provides a massive unstructured data processing method and device, which belongs to the technical field of data processing. The massive unstructured data processing method of the present invention includes cleaning up massive unstructured data to obtain standard format data files; uploading batch data files in the standard format to the distributed storage platform; creating one or more indexes to store the standard format data files; and querying distributed data on the distributed storage platform according to the indexes. The invention provides a method and device for processing massive unstructured data, which can realize fast query of massive unstructured data.

【技术实现步骤摘要】
一种海量非结构化数据处理方法和装置
本专利技术属于数据处理
,尤其涉及一种海量非结构化数据处理方法和装置。
技术介绍
随着互联网技术的高速发展及云时代的来临,大数据(Bigdata)处理技术受到越来越多的关注。大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱,并且在数据大量的增长的情况下,基于这些传统的关系型数据库的数据处理和查询速度越来越慢,已经不能适应当前大数据处理的需求。
技术实现思路
本专利技术提供一种海量非结构化数据处理方法和装置,可实现海量非结构化数据的快速查询。为解决上述技术问题,本专利技术提供了一种海量非结构化数据处理方法,包括:对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。根据本专利技术的一实施方式,所述对海量非结构化数据进行清理得到标准格式的数据文件的步骤包括:将海量非结构化数据中所有的非数值数据转换为数值数据;处理转换后的数值数据中不完整的数据、错误的数据、重复的数据;转换所述数值数据得到标准格式的数据文件。根据本专利技术的另一实施方式,所述处理转换后的数值数据中不完整的数据、错误的数据、重复的数据的步骤包括:将一系列相似数值数据用统计量概括;删掉稀疏数值数据和共线数值数据;用中位数或平均数填充空值。根据本专利技术的另一实施方式,所述批量上传所述标准格式的数据文件到分布式存储平台的步骤包括:将所述标准格式的数据文件存放到同一目标文件路径下;循环遍历所述目标文件获取得到包含绝对路径的文件全名,并存入链接数据表;遍历所述链接数据表中的每个路径获取得到所述标准格式的数据文件的数据格式信息;解析所述标准格式的数据文件的数据格式信息得到对应的匹配字段;根据所述匹配字段利用批量导入接口将所述标准格式的数据文件导入到分布式存储平台。根据本专利技术的另一实施方式,所述创建一个或多个索引存储所述标准格式的数据文件的步骤包括:根据所述标准格式的数据文件的特性创建一个或多个索引;将所述标准格式的数据文件存储到对应的索引中。另一方面,本专利技术还提供了一种海量非结构化数据处理装置,包括:清理模块,用于对海量非结构化数据进行清理得到标准格式的数据文件;上传模块,用于批量上传所述标准格式的数据文件到分布式存储平台;存储模块,用于创建一个或多个索引存储所述标准格式的数据文件;查询模块,用于根据所述索引在分布式存储平台上进行分布式数据查询。根据本专利技术的一实施方式,所述清理模块包括:第一转换单元,用于将海量非结构化数据中所有的非数值数据转换为数值数据;处理单元,用于处理转换后的数值数据中不完整的数据、错误的数据、重复的数据;第二转换单元,用于转换所述数值数据得到标准格式的数据文件。根据本专利技术的另一实施方式,所述处理单元包括:概括子单元,用于将一系列相似数值数据用统计量概括;删除子单元,用于删掉稀疏数值数据和共线数值数据;填充子单元,用于用中位数或平均数填充空值。根据本专利技术的另一实施方式,所述上传模块包括:存放单元,用于将所述标准格式的数据文件存放到同一目标文件路径下;第一遍历单元,用于循环遍历所述目标文件获取得到包含绝对路径的文件全名,并存入链接数据表;第二遍历单元,用于遍历所述链接数据表中的每个路径获取得到所述标准格式的数据文件的数据格式信息;解析单元,用于解析所述标准格式的数据文件的数据格式信息得到对应的匹配字段;导入单元,用于根据所述匹配字段利用批量导入接口将所述标准格式的数据文件导入到分布式存储平台。根据本专利技术的另一实施方式,所述存储模块包括:创建单元,用于根据所述标准格式的数据文件的特性创建一个或多个索引;存储单元,用于将所述标准格式的数据文件存储到对应的索引中。本专利技术的有益效果:本专利技术的一种海量非结构化数据处理方法通过海量非结构化数据进行清理得到标准格式的数据文件,批量上传所述标准格式的数据文件到分布式存储平台,之后创建一个或多个索引存储所述标准格式的数据文件,并根据所述索引在分布式存储平台上进行分布式数据查询,本专利技术实施例的海量非结构化数据处理方法采用分布式索引和分布式查询机制,可实现海量非结构化数据的快速查询。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的一种海量非结构化数据处理方法的一个实施例的流程示意图;图2是本专利技术的一种海量非结构化数据处理方法的步骤100的一个实施例的流程示意图;图3是本专利技术的一种海量非结构化数据处理方法的步骤200的一个实施例的流程示意图;图4是本专利技术的一种海量非结构化数据处理方法的步骤300的一个实施例的流程示意图;图5是本专利技术的一种海量非结构化数据处理装置的一个实施例的结构示意图;图6是本专利技术的一种海量非结构化数据处理装置的一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种海量非结构化数据处理方法,如图1所示,包括:步骤100:对海量非结构化数据进行清理得到标准格式的数据文件;步骤200:批量上传所述标准格式的数据文件到分布式存储平台;步骤300:创建一个或多个索引存储所述标准格式的数据文件;步骤400:根据所述索引在分布式存储平台上进行分布式数据查询。本专利技术实施例的一种海量非结构化数据处理方法通过海量非结构化数据进行清理得到标准格式的数据文件,批量上传所述标准格式的数据文件到分布式存储平台,之后创建一个或多个索引存储所述标准格式的数据文件,并根据所述索引在分布式存储平台上进行分布式数据查询,本专利技术实施例的海量非结构化数据处理方法采用分布式索引和分布式查询机制,可实现海量非结构化数据的快速查询,相较于传统数据库是全表扫描,时间缓慢,而索引查询技术,采用的是分布式查询技术,同样的数据分别进行随机查询,索引分布式查询在百万级的记录中查询一条记录所耗时间不足3秒,而传统的数据库查询,其查询几乎处于停滞状态。作为一个举例说明,如图2所示,本专利技术实施例的海量非结构化数据处理方法的步骤100包括:步骤101:将海量非结构化数据中所有的非数值数据转换为数值数据;把所有非数值数据转为数值数据例如:含有人类知识的数据根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等),不含有先验知识的非数值数据通过one-hotencoding一律转成0-1哑数据。步骤102:处理转换后的数值数据中不完整的数据、错误的数据、重复的数据;步骤103:转换所述数值数据得到标准格式的数据文件。可选的,所述标准格式的数据文件可以为json格式文件。本专利技术实施例的海量非结构化数据处理方法在对数本文档来自技高网...

【技术保护点】
1.一种海量非结构化数据处理方法,其特征在于,包括:对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。

【技术特征摘要】
1.一种海量非结构化数据处理方法,其特征在于,包括:对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。2.根据权利要求1所述的一种海量非结构化数据处理方法,其特征在于,所述对海量非结构化数据进行清理得到标准格式的数据文件的步骤包括:将海量非结构化数据中所有的非数值数据转换为数值数据;处理转换后的数值数据中不完整的数据、错误的数据、重复的数据;转换所述数值数据得到标准格式的数据文件。3.根据权利要求2所述的一种海量非结构化数据处理方法,其特征在于,所述处理转换后的数值数据中不完整的数据、错误的数据、重复的数据的步骤包括:将一系列相似数值数据用统计量概括;删掉稀疏数值数据和共线数值数据;用中位数或平均数填充空值。4.根据权利要求1所述的一种海量非结构化数据处理方法,其特征在于,所述批量上传所述标准格式的数据文件到分布式存储平台的步骤包括:将所述标准格式的数据文件存放到同一目标文件路径下;循环遍历所述目标文件获取得到包含绝对路径的文件全名,并存入链接数据表;遍历所述链接数据表中的每个路径获取得到所述标准格式的数据文件的数据格式信息;解析所述标准格式的数据文件的数据格式信息得到对应的匹配字段;根据所述匹配字段利用批量导入接口将所述标准格式的数据文件导入到分布式存储平台。5.根据权利要求1所述的一种海量非结构化数据处理方法,其特征在于,所述创建一个或多个索引存储所述标准格式的数据文件的步骤包括:根据所述标准格式的数据文件的特性创建一个或多个索引;将所述标准格式的数据文件存储到对应的索引中。6.一种海量非结构化数据处理装置,其...

【专利技术属性】
技术研发人员:程俊杭维杰
申请(专利权)人:上海勋立信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1