【技术实现步骤摘要】
一种面向大数据处理的数据处理方法和装置
本专利技术涉及大数据领域,具体涉及一种面向大数据处理的数据处理方法和装置。
技术介绍
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。大数据虽然极具价值,但由于规模巨大,面临着持续可扩展问题。例如,数据仓库中常用的记录某个对象行为的历史状态数据,在大数据时代随着对象数量(如客户)的急速增加,以及每个处理对象行为(如客户交易)的迅速增加,规模成爆炸式增长,给处理环境的CPU、存储、网络带来的巨大压力。其中,CPU通过水平扩展能够满足大数据处理需求,而磁盘读写IO和网络传输IO由于机械部件、工艺技术、物理介质等条件限制,成为制约大数据处理的主要瓶颈。为此,采用压缩方式进行大数据的存储和传输,以牺牲少量CPU时间解压缩换取IO时间,成为提高大数据处理性能的一个必然选择。针对上述需求,当前的主流大数据处理系统,如Hadoop、HBase> Hive等,都支持在应用中Gzip、LZO、Sn ...
【技术保护点】
一种面向大数据的数据处理方法,其特征在于,包括:获取处理环境数据及负载场景数据;选择所述处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为1。
【技术特征摘要】
1.一种面向大数据的数据处理方法,其特征在于,包括: 获取处理环境数据及负载场景数据; 选择所述处理环境数据及负载场景数据对应的压缩方式; 根据所选择的压缩方式对数据进行处理; 所述处理环境数据包括网络传输的性能指标和磁盘的性能指标; 所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为I。2.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括: 在网络传输的性能指标为低于IGbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50 %时,使用压缩方法进行读、写操作。3.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括: 在网络传输的性能指标为闻于IOGbps且磁盘的性能指标为闻于600MBps时,使用压缩方法进行读操作、不进行写操作。4.如权利要求2所述的方法,其特征在于,使用压缩方法进行读、写操作包括: 选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。5.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括: 在所述读操作的比例在90%以上时,选择使用Snappy或LZO压缩方式。6.如权利要求5所述的方法...
【专利技术属性】
技术研发人员:亓开元,辛国茂,赵仁明,房体盈,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。