The invention provides a massive unstructured data processing method and device, which belongs to the technical field of data processing. The massive unstructured data processing method of the present invention includes cleaning up massive unstructured data to obtain standard format data files; uploading batch data files in the standard format to the distributed storage platform; creating one or more indexes to store the standard format data files; and querying distributed data on the distributed storage platform according to the indexes. The invention provides a method and device for processing massive unstructured data, which can realize fast query of massive unstructured data.
【技术实现步骤摘要】
一种海量非结构化数据处理方法和装置
本专利技术属于数据处理
,尤其涉及一种海量非结构化数据处理方法和装置。
技术介绍
随着互联网技术的高速发展及云时代的来临,大数据(Bigdata)处理技术受到越来越多的关注。大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱,并且在数据大量的增长的情况下,基于这些传统的关系型数据库的数据处理和查询速度越来越慢,已经不能适应当前大数据处理的需求。
技术实现思路
本专利技术提供一种海量非结构化数据处理方法和装置,可实现海量非结构化数据的快速查询。为解决上述技术问题,本专利技术提供了一种海量非结构化数据处理方法,包括:对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。根据本专利技术的一实施方式,所述对海量非结构化数据进行清理得到标准格式的数据文件的步骤包括:将海量非结构化数据中所有的非数值数据转换为数值数据;处理转换后的数值数据中不完整的数据、错误的数据、重复的数据;转换所述数值数据得到标准格式的数据文件。根据本专利技术的另一实施方式,所述处理转换后的数值数据中不完整的数据、错误的数据、重复的数据的步骤包括:将一系列相似数值数据用统计量概括;删掉稀疏数值数据和共线数值数据;用中位数或平均数填充空值。根据本专利技术的另一实施方式,所述批量上传所述标准格式的数据文件到分布式存储平台的步骤包括:将所述标准 ...
【技术保护点】
1.一种海量非结构化数据处理方法,其特征在于,包括:对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。
【技术特征摘要】
1.一种海量非结构化数据处理方法,其特征在于,包括:对海量非结构化数据进行清理得到标准格式的数据文件;批量上传所述标准格式的数据文件到分布式存储平台;创建一个或多个索引存储所述标准格式的数据文件;根据所述索引在分布式存储平台上进行分布式数据查询。2.根据权利要求1所述的一种海量非结构化数据处理方法,其特征在于,所述对海量非结构化数据进行清理得到标准格式的数据文件的步骤包括:将海量非结构化数据中所有的非数值数据转换为数值数据;处理转换后的数值数据中不完整的数据、错误的数据、重复的数据;转换所述数值数据得到标准格式的数据文件。3.根据权利要求2所述的一种海量非结构化数据处理方法,其特征在于,所述处理转换后的数值数据中不完整的数据、错误的数据、重复的数据的步骤包括:将一系列相似数值数据用统计量概括;删掉稀疏数值数据和共线数值数据;用中位数或平均数填充空值。4.根据权利要求1所述的一种海量非结构化数据处理方法,其特征在于,所述批量上传所述标准格式的数据文件到分布式存储平台的步骤包括:将所述标准格式的数据文件存放到同一目标文件路径下;循环遍历所述目标文件获取得到包含绝对路径的文件全名,并存入链接数据表;遍历所述链接数据表中的每个路径获取得到所述标准格式的数据文件的数据格式信息;解析所述标准格式的数据文件的数据格式信息得到对应的匹配字段;根据所述匹配字段利用批量导入接口将所述标准格式的数据文件导入到分布式存储平台。5.根据权利要求1所述的一种海量非结构化数据处理方法,其特征在于,所述创建一个或多个索引存储所述标准格式的数据文件的步骤包括:根据所述标准格式的数据文件的特性创建一个或多个索引;将所述标准格式的数据文件存储到对应的索引中。6.一种海量非结构化数据处理装置,其...
【专利技术属性】
技术研发人员:程俊,杭维杰,
申请(专利权)人:上海勋立信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。