一种面向大数据处理的数据处理方法和装置制造方法及图纸

技术编号:10367290 阅读:137 留言:0更新日期:2014-08-28 11:10
本发明专利技术公开了一种面向大数据的数据处理方法和装置,该方法包括:获取处理环境数据及负载场景数据;选择处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;处理环境数据包括网络传输的性能指标和磁盘的性能指标;负载场景数据包括读操作比例和写操作比例,读操作比例与写操作比例相加为1。本发明专利技术能够指导在不同运行环境、不同负载场景下的压缩方式的选择,优化大数据处理性能。

【技术实现步骤摘要】
一种面向大数据处理的数据处理方法和装置
本专利技术涉及大数据领域,具体涉及一种面向大数据处理的数据处理方法和装置。
技术介绍
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。大数据虽然极具价值,但由于规模巨大,面临着持续可扩展问题。例如,数据仓库中常用的记录某个对象行为的历史状态数据,在大数据时代随着对象数量(如客户)的急速增加,以及每个处理对象行为(如客户交易)的迅速增加,规模成爆炸式增长,给处理环境的CPU、存储、网络带来的巨大压力。其中,CPU通过水平扩展能够满足大数据处理需求,而磁盘读写IO和网络传输IO由于机械部件、工艺技术、物理介质等条件限制,成为制约大数据处理的主要瓶颈。为此,采用压缩方式进行大数据的存储和传输,以牺牲少量CPU时间解压缩换取IO时间,成为提高大数据处理性能的一个必然选择。针对上述需求,当前的主流大数据处理系统,如Hadoop、HBase> Hive等,都支持在应用中Gzip、LZO、Snappy等压缩方式,然而,由于编解码方式和解压缩方法不同,各种方法的压缩率、编解码速度各有不同,遵循着压缩效果越好压缩/解压缩效率越低这一矛盾统一的客观规律。因此,针对不同网络带宽、磁盘速度等的大数据处理环境,以及不同负载特征的大数据应用场景,应该如何选择是否应该采用压缩方法,采用何种压缩方式,是大数据设计面临的一个关键问题。
技术实现思路
本专利技术所要解决的技术问题在于,本专利技术提出一种面向大数据处理的数据处理方法,通过计算各种压缩方式在不同运行环境、不同负载场景下的性能指标指导压缩方式的选择,从而降低处理延迟。为了解决上述问题,本专利技术提供一种面向大数据的数据处理方法,该方法包括:获取处理环境数据及负载场景数据;选择所述处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;[0011 ] 所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为I。优选地,所述方法还包括:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在网络传输的性能指标为低于IGbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。优选地,所述方法还包括:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在网络传输的性能指标为高于IOGbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。优选地,所述方法还包括:使用压缩方法进行读、写操作包括:选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。优选地,所述方法还包括:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在所述读操作的比例在90%以上时,选择使用Snappy或LZO压缩方式。优选地,所述方法还包括:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在网络传输的性能指标为低于IGbps时,选择使用LZO压缩方式。优选地,所述方法还包括:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在网络传输的性能指标为高于IOGbps时,选择使用Snappy压缩方式。为了解决上述问题,本专利技术还提供一种面向大数据的数据处理装置,该装置包括:获取模块,用于获取处理环境数据及负载场景数据;所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为I;选择模块,用于选择所述处理环境数据及负载场景数据对应的压缩方式;处理模块,用于根据所选择的压缩方式对数据进行处理。优选地,所述装置还具有以下特点:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在网络传输的性能指标为低于IGbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。优选地,所述装置还具有以下特点:选择所述处理环境数据及负载场景数据对应的压缩方式包括:在网络传输的性能指标为高于IOGbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。上述面向大数据的数据处理方法及装置,能够指导在不同运行环境、不同负载场景下的压缩方式选择,优化大数据处理性能。【附图说明】图1所示为本专利技术实施例面向大数据的数据处理方法流程图;图2所示为本专利技术实施例面向大数据的数据处理装置示意图。【具体实施方式】以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,如果不冲突,本专利技术实施例以及实施例中的各个特征的相互均在本专利技术的保护范围之内。本专利技术的实施例提供了一种面向大数据处理的数据处理方法,如图1所示,包括:步骤SlOl:获取处理环境数据及负载场景数据;所述处理环境数据包括但不限于:网络传输的性能指标和磁盘的性能指标;可选地,所述网络传输的性能指标包括但不限于为网络传输的带宽,磁盘的性能指标包括但不限于为磁盘的读写速度。可选地,所述负载场景数据包括但不限于:读操作比例和写操作比例,所述读操作比例与写操作比例相加为I。步骤S102:选择所述处理环境数据及负载场景数据对应的压缩方式;具体为,包括但不限于:在网络传输的性能指标为高于IOGbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。在网络传输的性能指标为低于IGbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。可选地,选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。在所述读操作的比例在90%以上时,可选地,选择使用Snappy或LZO压缩方式。可选地,在网络传输的性能指标为低于IGbps时,选择使用LZO压缩方式。可选地,在网络传输的性能指标为高于IOGbps时,选择使用Snappy压缩方式。步骤S103:根据所选择的压缩方式对数据进行处理。为了实现上述方法,本专利技术还提供了一种面向大数据的数据处理装置,如图2所示,该装置包括:获取模块,用于获取处理环境数据及负载场景数据;可选地,所述网络传输的性能指标包括但不限于为网络传输的带宽,磁盘的性能指标包括但不限于为磁盘的读写速度。可选地,所述负载场景数据包括但不限于:读操作比例和写操作比例,所述读操作比例与写操作比例相加为I。选择模块,用于选择所述处理环境数据及负载场景数据对应的压缩方式;具体是指:在网络传输的性能指标为高于IOGbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。在网络传输的性能指标为低于IGbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。可选地,选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。在所述读操作的比例在90%以上时,可选地,选择使用Snappy或LZO压缩方式。可选地,在网络传输的性能指本文档来自技高网...
一种面向大数据处理的数据处理方法和装置

【技术保护点】
一种面向大数据的数据处理方法,其特征在于,包括:获取处理环境数据及负载场景数据;选择所述处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为1。

【技术特征摘要】
1.一种面向大数据的数据处理方法,其特征在于,包括: 获取处理环境数据及负载场景数据; 选择所述处理环境数据及负载场景数据对应的压缩方式; 根据所选择的压缩方式对数据进行处理; 所述处理环境数据包括网络传输的性能指标和磁盘的性能指标; 所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为I。2.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括: 在网络传输的性能指标为低于IGbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50 %时,使用压缩方法进行读、写操作。3.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括: 在网络传输的性能指标为闻于IOGbps且磁盘的性能指标为闻于600MBps时,使用压缩方法进行读操作、不进行写操作。4.如权利要求2所述的方法,其特征在于,使用压缩方法进行读、写操作包括: 选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。5.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括: 在所述读操作的比例在90%以上时,选择使用Snappy或LZO压缩方式。6.如权利要求5所述的方法...

【专利技术属性】
技术研发人员:亓开元辛国茂赵仁明房体盈
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1