一种基于大数据的非结构化数据压缩处理系统及其方法技术方案

技术编号:15639666 阅读:192 留言:0更新日期:2017-06-16 01:00
本发明专利技术公开了一种基于大数据的非结构化数据压缩处理系统及其方法,系统中数据采集模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。方法步骤包括:数据流的采集、数据的压缩、数据的存储、数据的还原。本发明专利技术在大数据采集生成的非结构型数据的数据量更少,传输所需要的带宽更低,存储所占用的空间更小,既可以满足对带宽与数据数度要求等苛刻的应用场景,又可实现稳定可靠的数据收集、传输与存储。

【技术实现步骤摘要】
一种基于大数据的非结构化数据压缩处理系统及其方法
本专利技术涉及大数据处理的数据流采集、传输、存储以及分析领域,特别是一种基于大数据的非结构化数据压缩处理系统及其方法。
技术介绍
据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。据报道指出:平均只有1%-5%的数据是结构化的数据,更多有价值的信息都保存在非结构化数据当中,而传统的数据处理技术无法挖掘出这些数据中所潜藏的价值。为了应对这种挑战,大数据技术应运而生,全球越来越多的企业采用其来对企业在业务运营中所获得的数据进行采集,存储,分析。大数据环境下的数据分为三类:结构化数据,半结构化数据,非结构化数据。结构化数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。传统的数据库系统完全能够满足处理需求。非结构化数据,即为不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。针对于音视频及图片等数据,行业中已经开发出了多种压缩算法来有效地降低采集,存储,处理时所占用的计算存储资源。但是针对于文档,文本等其它类型的非结构化数据,例如企业收集到的用户行为,业务数据报表等高价值数据采用的都是文本或者XML等格式保存,并未有有效的处理方法来节省传输时所消耗的带宽,与存储时所占用的物理存储空间。所以现在针对文本类非结构化数据的采集,传输,存储系统的现状是:1.采集时,所有采集节点都将产生的数据都完整地采集下来;2.传输时,将所有的数据只进行传统的Zip压缩再进行传输,不能最大化节省各个分部式节点间的传输带宽;3.存储时,若将数据按时间顺序与逻辑关系将数据进行完整的存储,会占用大量的物理存储空间。因此,在针对文本类非结构化数据处理时,可以在以下几个节点进行优化:1.按时间高效的对数据进行采集,天然地形成数据流状态;2.高效率地对数据进行压缩,有效节省传输流数据的带宽;3.低成本的存储流数据。
技术实现思路
针对现有技术中存在的问题,本专利技术提供了一种采集效率高,传输可靠性高,存储成本低,支持进行实时数据挖掘与分析的基于大数据的非结构化数据压缩处理系统及其方法。本专利技术的目的通过以下技术方案实现。一种基于大数据的非结构化数据压缩处理系统,包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台,所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口,所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。进一步的,所述数据采集模块用于设定了数据结构体,所述数据采集模块中间包含所有需要监控的变量,所述数据采集模块每间隔一个单位时间ΔT,对每个所监控的变量采样得到当前帧,并与参考帧进行对比,计算出变化变量的差值,将所有的变化变量记录下Key值与变化量。进一步的,所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中、并记录下每个变化量的存储相对于该内存空间起点的Offset,接着将Offset与Key通过Hash函数做成一一对应的Hash表。进一步的,所述ExUDP模块在应用层扩展UDP协议,所述ExUDP模块将Offset-KeyHash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上。进一步的,所述数据接收模块提用于将Offset-KeyHash表及存储空间M转存到时间序列数据库上的接口,所述数据接收模块将数据以帧为单位接收下来、并存储到时间序列数据库中。进一步的,所述时间序列数据库用于实现按帧为单位的非结构化数据存储。进一步的,所述数据还原模块以帧为单位从数据库中读取数据、并将其转化为流数据。一种基于大数据的非结构化数据压缩处理方法,步骤包括:1)数据流的采集:数据生成结点以固定的速率A样本每秒在生成文本类非结构化数据,数据采集节点分布在各个数据生成结点上进行实时监测,以B样本每秒的采样速率对数据流进行监测采样,当数据以覆盖的形式生成时,B≥A,当数据以追加的形式生成时,B<A,之后执行步骤2);2)数据的压缩:进行数据压缩处理时,以采样到的第一帧数据为基础样本,第二帧数据通过压缩比较模块,与第一帧数据进行比较,得出两帧数据上变化的变量,及相应变量的变化值,同理,在处理第N帧采样数据与第N-1帧采样数据时,比较两帧数据,得到变化值,之后执行步骤3);3)数据的存储:变量通过Hash算法,映射到固定内存空间中,将与变量对应的变化差值存储到相应的内存空间中,之后执行步骤4);4)数据的还原:进行数据还原时,从存储中取出第一帧数据做为参照系,然后将第二帧的变化变量表与变化量值表取出,将差量解出,叠加回到第一帧数据之上,同理,以还原出的第N-1帧数据为参考,将第N帧变化值叠加回第N-1帧,并将所有的数据按时间先后顺序排列,恢复出数据流。相比于现有技术,本专利技术的优点在于:本专利技术是在充分理解了当今大数据时代的数据特点,专门针对大数据时代非结构性数据在采集,传输,存储上提出的独特的解决方案,使得在依托大数据的数据分析处理平台进入一个资源“轻量级”时代。通过本专利技术,在具有同等信息量的条件下,大数据采集生成的非结构型数据的数据量更少,传输所需要的带宽更低,存储所占用的空间更小,既可以满足对带宽与数据数度要求等苛刻的应用场景,又可实现稳定可靠的数据收集、传输与存储,还可以通过采用本专利技术,对数据平台进行优化,疏通平台数据传输通道,改善平台存储结构,实现物理资源的合理分配,有效地降低大数据系统的采集,存储,分析处理成本。附图说明图1为本专利技术的系统结构示意图。图2为本专利技术的方法流程图。具体实施方式下面结合说明书附图和具体的实施例,对本专利技术作详细描述。本专利技术专门针对当前大数据下的文本信息类的非结构性数据特征,即不方便用数据库二维逻辑表来表现的文本、文档数据,包括所有格式的办公文档、文本、标准通用标记语言下的子集XML、HTML、各类报表等等。本专利技术实现实时的数据流采集,在采集时采用本专利提出的非结构化数据压缩处理算法,高效地对非结构化数据流进行压缩,以节约在对数据进行传输时的网络带宽成本与存储时数据所占用的物理资源。如图1所示,一种基于大数据的非结构化数据压缩处理系统,包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台,所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口,所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。所述数据采集模块用于设定了数据结构体,所述数据采集模块中间包含所有需要监控的变量,所述数据采集模块每间隔一个单位时间ΔT,对每个所监控的变量采样得到当前帧,并与参考帧进行对比,计算出变化变量的差值,将所有的变化变量记录下Key值与变化量,如此便不需要将所有的变量。所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中,以压缩存储信息所需要的内存本文档来自技高网
...
一种基于大数据的非结构化数据压缩处理系统及其方法

【技术保护点】
一种基于大数据的非结构化数据压缩处理系统,其特征在于包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台,所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口,所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。

【技术特征摘要】
1.一种基于大数据的非结构化数据压缩处理系统,其特征在于包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台,所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口,所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。2.根据权利要求1所述的一种基于大数据的非结构化数据压缩处理系统,其特征在于所述数据采集模块用于设定了数据结构体,所述数据采集模块中间包含所有需要监控的变量,所述数据采集模块每间隔一个单位时间ΔT,对每个所监控的变量采样得到当前帧,并与参考帧进行对比,计算出变化变量的差值,将所有的变化变量记录下Key值与变化量。3.根据权利要求2所述的一种基于大数据的非结构化数据压缩处理系统,其特征在于所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中、并记录下每个变化量的存储相对于该内存空间起点的Offset,接着将Offset与Key通过Hash函数做成一一对应的Hash表。4.根据权利要求3所述的一种基于大数据的非结构化数据压缩处理系统,其特征在于所述ExUDP模块在应用层扩展UDP协议,所述ExUDP模块将Offset-KeyHash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上。5.根据权利要求4所述的一种基于大数据的非结构化数据压缩处理系统,其特征在于所述数据接收模块提用于将Offset-KeyHash表及存储空间M转存到时间序...

【专利技术属性】
技术研发人员:王倬遥高振国杨海雷
申请(专利权)人:深圳市高星文网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1