一种大数据的汇集存储方法与系统技术方案

技术编号:15391749 阅读:133 留言:0更新日期:2017-05-19 04:55
本发明专利技术公开了一种大数据的汇集存储方法与系统,方法包括:数据采集:实时采集多个数据源的多维原始数据;数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;数据存储:将数据清洗得到的对象流进行存储。本发明专利技术在现有的大数据系统之上,对大数据进行收集与清洗之后进行存储,解决现有技术使用固定分块的形式,导致特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高的问题。

Method and system for storing and storing large data

The present invention discloses a storage method and system, a large data collection methods include: Data Acquisition: multi-dimensional data real-time collection of multiple data sources; data collection: collection and establishing communication channel data acquisition data, and the collected data are sent to data cleaning module; data cleaning data: the cleaning of data collection data from data cleaning includes positioning and replace the default values in the data and outliers; data storage: object data stream storage by cleaning. The present invention on the existing system of big data, after collecting and cleaning of large data storage, solve the existing technology using a fixed block form, resulting in more fixed block, the use of few times but still occupy a lot of space, so that the whole storage system utilization rate is not high question.

【技术实现步骤摘要】
一种大数据的汇集存储方法与系统
本专利技术涉及一种大数据的汇集存储方法与系统。
技术介绍
大数据(bigdata),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”业界(IBM最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。随着社会信息化水平的不断提高和互联网技术的高速发展,各类非结构化数据,如图片、音视频、文本资料等呈现出爆炸性增长的趋势,在云存储服务为人们带来便利的同时,数据规模也在急剧膨胀,这对存储海量数据的能力提出了更高的要求。研究表明,数据中高达75%的部分是重复的,存储资源利用率不高的一个重要原因就是数据中存在大量的重复和冗余。内容寻址存储(ContentAddressedStorage,CAS)是由美国EMC公司2002年4月率先提出的针对固定内容存储需求的先进的网络存储技术。CAS具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。EMC同时推出了其CAS产品Centera,并成为CAS存储技术的代表性产品。之后,一些存储公司相继推出了相关的产品,使CAS技术备受关注。对于大多数的现有技术,只公开了在存储之前会进行清洗但未公开如何清洗,比如申请号为CN201410727728.4的专利技术专利。同时,现有技术的部分大数据系统采用了CAS技术,然而现有技术通常采用对对象进行固定分块的方式进行数据分片,采用该方式虽然可以节约分块的时间,然而如果是采用该种方法,会存在特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高,尤其是在大数据的基础上以及对于各种常用属性的组合的时候会产生上述问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种大数据的汇集存储方法与系统,对大数据进行收集与清洗之后进行存储;同时对数据存储进行改进,解决现有技术使用固定分块的形式,导致特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高的问题。本专利技术的目的是通过以下技术方案来实现的:一种大数据的汇集存储方法,包括:数据采集:实时采集多个数据源的多维原始数据;数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:S1:接收对象流;S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将所述指纹值更新至所述指纹值数据库,包括以下子步骤:S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;S22:计算比较组对应的指纹值;S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回步骤S21;(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;S3:当完成整个对象的分段,则结束。一种大数据的汇集存储方法还包括:数据分析,用于对数据处理得到的数据按照模型进行分析;所述的数据存储还用于对数据分析得到的数据进行存储。在步骤S21所述的获取比较组之前,还包括一个判断步骤:如果对象的最后一位大于m+X,则进入步骤S21;否则:S01:直接计算m位~对象最后一位的指纹值;S02:按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;S03:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。在步骤S1和步骤S2之间还包括一个对象头/尾判断步骤,用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入步骤S2。所述的比较组限制有最大值Y,步骤S24中当在能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的子步骤。一种大数据的汇集存储系统,包括:数据采集器:用于实时采集多个数据源的多维数据;数据汇集器:用于汇集与其建立通信通道的所述的数据采集器的数据,并把汇集到的数据发送至数据清洗模块;数据清洗模块:用于对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值替换单元和异常值替换单元;所述的缺省值替换单元用于在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;所述的异常值替换单元包括默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值;对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;数据存储模块:将数据清洗模块得到的对象流本文档来自技高网
...
一种大数据的汇集存储方法与系统

【技术保护点】
一种大数据的汇集存储方法,其特征在于:包括:数据采集:实时采集多个数据源的多维原始数据;数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:S1:接收对象流;S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将所述指纹值更新至所述指纹值数据库,包括以下子步骤:S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;S22:计算比较组对应的指纹值;S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:(2‑1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p‑1)*n+1,完成后返回步骤S21;(2‑2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;S3:当完成整个对象的分段,则结束。...

【技术特征摘要】
1.一种大数据的汇集存储方法,其特征在于:包括:数据采集:实时采集多个数据源的多维原始数据;数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:S1:接收对象流;S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将所述指纹值更新至所述指纹值数据库,包括以下子步骤:S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;S22:计算比较组对应的指纹值;S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回步骤S21;(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;S3:当完成整个对象的分段,则结束。2.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:还包括:数据分析,用于对数据处理得到的数据按照模型进行分析;所述的数据存储还用于对数据分析得到的数据进行存储。3.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:在步骤S21所述的获取比较组之前,还包括一个判断步骤:如果对象的最后一位大于m+X,则进入步骤S21;否则:S01:直接计算m位~对象最后一位的指纹值;S02:按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;S03:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。4.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:在步骤S1和步骤S2之间还包括一个对象头/尾判断步骤,用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入步骤S2。5.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:所述的比较组限制有最大值Y,步骤S24中当在能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入...

【专利技术属性】
技术研发人员:王纯斌肖勃飞黄英海
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1