【技术实现步骤摘要】
一种大数据存储优化的方法及装置
本专利技术涉及大数据存储
,尤其涉及一种大数据存储优化的方法及装置。
技术介绍
随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代;数据按类型分为结构化数据、半结构化数据和非结构化数据,其中结构化数据是指能够以二维结构表示的一种数据类型,能通过关系型数据库存储;半结构化数据是指具有一定结构,但语义不够明确的一种数据类型,如邮件、HTML网页等,它们有些字段是确定的,也有些字段是不确定的;非结构化数据是指无法用二维结构表示的一种数据类型,主要包括办公文档、文本、图片、音视频文件等,无法采用关系型数据库进行处理;伴随社交网络的兴起和发展,产生了大量数据,如何科学管理和合理应用这些数据显得日益重要,现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台,其核心包括HDFS,HDFS的众多优点允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统,主流大数据并行计算系统在设 ...
【技术保护点】
1.一种大数据存储优化的方法,其特征在于,包括以下步骤:/nS1、获取存储内存并对其进行分割,以形成多个存储单元;/nS2、生成相应的存储规则,依据存储规则对各存储单元的存储属性进行设定,使得待存储数据只有在相同的存储属性下才能被分配到对应的存储单元下;/nS3、采集待存储数据并对其进行初步处理,将数据分为轻量级数据和多媒体数据,提取多媒体数据的特征信息作为描述多媒体数据的轻量级数据,提取多媒体数据的特征信息进行数据清理,删除数据清理后的冗余数据;/n其中,轻量级数据包括数字和字符串,多媒体数据包括图片、音频和视频;/nS4、对数据进行规范化再处理,采用RCFile进行压缩 ...
【技术特征摘要】
1.一种大数据存储优化的方法,其特征在于,包括以下步骤:
S1、获取存储内存并对其进行分割,以形成多个存储单元;
S2、生成相应的存储规则,依据存储规则对各存储单元的存储属性进行设定,使得待存储数据只有在相同的存储属性下才能被分配到对应的存储单元下;
S3、采集待存储数据并对其进行初步处理,将数据分为轻量级数据和多媒体数据,提取多媒体数据的特征信息作为描述多媒体数据的轻量级数据,提取多媒体数据的特征信息进行数据清理,删除数据清理后的冗余数据;
其中,轻量级数据包括数字和字符串,多媒体数据包括图片、音频和视频;
S4、对数据进行规范化再处理,采用RCFile进行压缩处理,通过CCIndex将数据随机遍历转化为按行索引遍历,以及采用CCT进行记录并完成数据增量备份,并行计算组件完成HDFS文件系统和Map/Reduce计算模型配置类优化;
S5、对处理后的待存储数据进行封装处理以形成对象数据,解码和编译对象数据,根据对象数据的属性信息来确定对象数据的数据类型,按照对象数据的文件属性来写入其存储属性;
S6、根据对象数据的数据类型对数据进行分类,并形成多个数据分类包,以及对各分类数据包进行标识;
S7、依据标识信息、存储规则和存储属性将各数据分类包存储到对应的存储单元中;
S8、对各存储单元中的数据进行同步,其中,同步是指客户端的对象数据与服务器端的对象数据之间的同步。
2.根据权利要求1所述的一种大数据存储优化的方法,其特征在于,在S2中,还需记录各存储单元的存储容量和存储位置,并依据各存储单元的存储属性来对存储单元进行命名。
3.根据权利要求1所述的一种大数据存储优化的方法,其特征在于,在S3中,多媒体数据的特征信息包括兴趣值、摘要值和原始值,其中,兴趣值用于表示该数据的应用领域,摘要值用于简要描述多媒体数据,原始值用于存储原始多媒体数据在磁盘阵列中存放的位置。
4.根据权利要求1所述的一种大数据存储优化的方法,其特征在于,在S4中,还包括多源数据组织与汇聚,具体操作如下:
从信息源、信息体、用户需求等多个视角,分析多源海量信息的可用性特征,并对多源数据进行汇聚。
5.根据权利要求4所述的...
【专利技术属性】
技术研发人员:李瑞芳,何怀文,肖涛,程东,黄敏,
申请(专利权)人:电子科技大学中山学院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。