The embodiment of the present invention provides a real-time large data mirror storage method and device. The method splits the original data obtained from the real-time data source, and processes the splitted data by rearranging, filtering, deleting and other mirror processing according to the actual business needs, and finally stores the data after image processing, thereby reducing data redundancy and improving data availability. \u3002 In addition, the method provided by the embodiment of the present invention can also verify and analyze the cached data after image processing and the stored data finally stored in the designated path. Only when the error between the original data and the original data is small, can the storage be completed, thereby increasing the accuracy of the stored data and providing strong support for later data analysis.
【技术实现步骤摘要】
实时大数据镜像存储方法及装置
本专利技术实施例涉及软件
,具体涉及一种实时大数据镜像存储方法及装置。
技术介绍
随着互联网技术的快速发展,大数据已经成为了热门话题,特别是对于运营商、大型互联网公司来讲,数据每天以PB的量级在增长,各相关企业为了响应党和政府的号召,大力发展大数据应用产业,建设了自己的大数据分析处理平台,进行大数据的存储、分析、应用等。在实际的大数据应用中,数据的采集实时性很强,例如:运营商的信令数据采集、互联网公司的日志数据采集,实时性都从分钟级到秒级,这种实时性的数据可为对实时性要求较高的大数据应用,例如:城市热力图带来应用精准、质量的提升,所以,如何将采集的数据更好地进行存储分析,减少从采集到存储到应用的时间,保证数据准确性,是一个亟待解决的问题。现在的流行的大数据平台,主要是以开源的hadoop平台做为基础,通过hadoop分布式文件系统(HDFS)对大数据进行存储。对于实时大数据的存储,一般是将数据接收后序列化并压缩后作为小文件顺序存储到本地文件系统,在小文件的绝对位置确定后,重新计算小文件的相对位置以追加为一个大文件来保证文件的完整性,且大文件依然可分割,然后异步追加小文件到HDFS中。然而,在实现专利技术创造的过程中,专利技术人发现,现有的方案存在以下问题:1、数据冗余度大,完成数据存储后,后面的数据分析应用需要对原始数据进行大量的原始处理,去除无用信息才能用于分析使用,会消耗大量有用计算资源;2、数据缺失可能性大,由于未对数据内容进行存储后的检验,可能会导致部分数据缺失而无法发现,造成后期数据分析不准确。
技术实现思路
本专 ...
【技术保护点】
1.一种实时大数据镜像存储方法,其特征在于,包括:接收实时数据源;对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;若小于,则将所述缓存变量中的缓存数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。
【技术特征摘要】
1.一种实时大数据镜像存储方法,其特征在于,包括:接收实时数据源;对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;若小于,则将所述缓存变量中的缓存数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。2.根据权利要求1所述的方法,其特征在于,所述对原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,包括:加载数据镜像配置表;根据所述配置表中配置的列数据镜像映射关系,对所述原始数据中每一行进行列数据镜像处理,得到镜像后的数据结果。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取本机系统的资源情况,并计算本机系统当前的资源负载值;若所述本机系统的资源负载值大于第一阈值,则减少数据镜像处理队列;若所述本机系统的资源负载值小于第二阈值,则增加数据镜像处理队列;其中第一阈值大于第二阈值。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取外部分布式存储系统的资源情况,并计算外部分布式存储系统当前的资源负载值;若所述外部分布式存储系统的资源负载值大于第三阈值,则减少数据镜像存储队列;若所述外部分布式存储系统的资源负载值小于第四阈值,则增加数据镜像存储队列;其中第三阈值大于第四阈值。5.一种实时大数据镜像存储装置,其特征在于,包括:数据接收模块,用于接收实时数据源;数据镜像处理模块,用于对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据...
【专利技术属性】
技术研发人员:涂锋,尹启禄,顾学伟,王建宏,刘钰柏,黄志豪,刘忱,
申请(专利权)人:中国移动通信集团广东有限公司,中国移动通信集团公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。