实时大数据镜像存储方法及装置制造方法及图纸

技术编号:20517457 阅读:30 留言:0更新日期:2019-03-06 02:30
本发明专利技术实施例提供了一种实时大数据镜像存储方法及装置,该方法对从实时数据源中获取的原始数据进行数据拆分,并对拆分后的数据按实际业务需求进行重排、筛选、删除等镜像处理,最终存储经过镜像处理之后的数据,从而能够减少数据冗余,提高数据可用性。此外,本发明专利技术实施例提供的方法还能够对经过镜像处理后的缓存数据、最终存储在指定路径的存储数据进行检验分析,只有在与原始数据的误差较小时才能够完成本次存储,从而能够增加存储数据的准确性,为后期的数据分析提供有力支持。

Real-time Large Data Mirror Storage Method and Device

The embodiment of the present invention provides a real-time large data mirror storage method and device. The method splits the original data obtained from the real-time data source, and processes the splitted data by rearranging, filtering, deleting and other mirror processing according to the actual business needs, and finally stores the data after image processing, thereby reducing data redundancy and improving data availability. \u3002 In addition, the method provided by the embodiment of the present invention can also verify and analyze the cached data after image processing and the stored data finally stored in the designated path. Only when the error between the original data and the original data is small, can the storage be completed, thereby increasing the accuracy of the stored data and providing strong support for later data analysis.

【技术实现步骤摘要】
实时大数据镜像存储方法及装置
本专利技术实施例涉及软件
,具体涉及一种实时大数据镜像存储方法及装置。
技术介绍
随着互联网技术的快速发展,大数据已经成为了热门话题,特别是对于运营商、大型互联网公司来讲,数据每天以PB的量级在增长,各相关企业为了响应党和政府的号召,大力发展大数据应用产业,建设了自己的大数据分析处理平台,进行大数据的存储、分析、应用等。在实际的大数据应用中,数据的采集实时性很强,例如:运营商的信令数据采集、互联网公司的日志数据采集,实时性都从分钟级到秒级,这种实时性的数据可为对实时性要求较高的大数据应用,例如:城市热力图带来应用精准、质量的提升,所以,如何将采集的数据更好地进行存储分析,减少从采集到存储到应用的时间,保证数据准确性,是一个亟待解决的问题。现在的流行的大数据平台,主要是以开源的hadoop平台做为基础,通过hadoop分布式文件系统(HDFS)对大数据进行存储。对于实时大数据的存储,一般是将数据接收后序列化并压缩后作为小文件顺序存储到本地文件系统,在小文件的绝对位置确定后,重新计算小文件的相对位置以追加为一个大文件来保证文件的完整性,且大文件依然可分割,然后异步追加小文件到HDFS中。然而,在实现专利技术创造的过程中,专利技术人发现,现有的方案存在以下问题:1、数据冗余度大,完成数据存储后,后面的数据分析应用需要对原始数据进行大量的原始处理,去除无用信息才能用于分析使用,会消耗大量有用计算资源;2、数据缺失可能性大,由于未对数据内容进行存储后的检验,可能会导致部分数据缺失而无法发现,造成后期数据分析不准确。
技术实现思路
本专利技术实施例提供一种用于实时大数据镜像存储方法及装置,用于克服现有的大数据存储方法数据冗余度大、数据易缺失的缺陷。第一方面,本专利技术实施例提供一种实时大数据镜像存储方法,包括:接收实时数据源;对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;若小于,则将所述缓存变量中的缓存数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。可选地,所述对原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,包括:加载数据镜像配置表;根据所述配置表中配置的列数据镜像映射关系,对所述原始数据中每一行进行列数据镜像处理,得到镜像后的数据结果。可选地,所述方法还包括:获取本机系统的资源情况,并计算本机系统当前的资源负载值;若所述本机系统的资源负载值大于第一阈值,则减少数据镜像处理队列;若所述本机系统的资源负载值小于第二阈值,则增加数据镜像处理队列;其中第一阈值大于第二阈值。可选地,所述方法还包括:获取外部分布式存储系统的资源情况,并计算外部分布式存储系统当前的资源负载值;若所述外部分布式存储系统的资源负载值大于第三阈值,则减少数据镜像存储队列;若所述外部分布式存储系统的资源负载值小于第四阈值,则增加数据镜像存储队列;其中第三阈值大于第四阈值。第二方面,本专利技术实施例提供一种实时大数据镜像存储装置,包括:数据接收模块,用于接收实时数据源;数据镜像处理模块,用于对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;数据检验模块,用于若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;数据镜像存储模块,用于若判断小于,则将所述缓存变量中的数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;所述数据检验模块,还用于判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。可选地,所述数据镜像处理模块,进一步用于:加载数据镜像配置表;根据所述配置表中配置的列数据镜像映射关系,对所述原始数据中每一行进行列数据镜像处理,得到镜像后的数据结果。可选地,所述装置还包括计算资源监控模块,用于:获取本机系统的资源情况,并计算本机系统当前的资源负载值;若所述本机系统的资源负载值大于第一阈值,则减少数据镜像处理队列;若所述本机系统的资源负载值小于第二阈值,则增加数据镜像处理队列;其中第一阈值大于第二阈值。可选地,所述装置还包括计算资源监控模块,用于:获取外部分布式存储系统的资源情况,并计算外部分布式存储系统当前的资源负载值;若所述外部分布式存储系统的资源负载值大于第三阈值,则减少数据镜像存储队列;若所述外部分布式存储系统的资源负载值小于第四阈值,则增加数据镜像存储队列;其中第三阈值大于第四阈值。第三方面,本专利技术的又一实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述方法的步骤。第四方面,本专利技术的又一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述方法的步骤。本专利技术实施例提供了一种实时大数据镜像存储方法及装置,该方法对从实时数据源中获取的原始数据进行数据拆分,并对拆分后的数据按实际业务需求进行重排、筛选、删除等镜像处理,最终存储经过镜像处理之后的数据,从而能够减少数据冗余,提高数据可用性。此外,本专利技术实施例提供的方法还能够对经过镜像处理后的缓存数据、最终存储在指定路径的存储数据进行检验分析,只有在与原始数据的误差较小时才能够完成本次存储,从而能够增加存储数据的准确性,为后期的数据分析提供有力支持。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例提供的一种实时大数据镜像存储方法流程图;图2是本专利技术实施例提供的一种实时大数据镜像存储完整方法流程图;图3是本专利技术实施例提供的对原始数据进行拆分、镜像处理示意图;图4是本专利技术实施例提供的对本机系统以及外部分布式存储系统进行监控方法流程图;图5是本专利技术提供的一种实时大数据镜像存储装置实施例结构示意图;图6是本专利技术提供的一种实时大数据镜像存储装置实施例具体结构示意图;图7是本专利技术提供的一种计算机设备实施例结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。第一方面,本专利技术实施例提供了一种实时大数据镜像存储方法,如图1所示,包本文档来自技高网...

【技术保护点】
1.一种实时大数据镜像存储方法,其特征在于,包括:接收实时数据源;对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;若小于,则将所述缓存变量中的缓存数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。

【技术特征摘要】
1.一种实时大数据镜像存储方法,其特征在于,包括:接收实时数据源;对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,再将所述数据结果存储至缓存变量中,记录所述缓存变量中的缓存数据记录数;若所述缓存变量的大小达到设定值,则判断所述原始数据记录数与所述缓存数据记录数的误差是否小于预设阈值;若小于,则将所述缓存变量中的缓存数据按指定的配置路径存储至存储文件中,记录所述存储文件中的存储数据记录数;判断所述缓存数据记录数与所述存储数据记录数的误差是否小于预设阈值;若小于,则将所述存储文件发送至外部分布式存储系统进行存储。2.根据权利要求1所述的方法,其特征在于,所述对原始数据按预设的镜像算法进行镜像处理,得到镜像后的数据结果,包括:加载数据镜像配置表;根据所述配置表中配置的列数据镜像映射关系,对所述原始数据中每一行进行列数据镜像处理,得到镜像后的数据结果。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取本机系统的资源情况,并计算本机系统当前的资源负载值;若所述本机系统的资源负载值大于第一阈值,则减少数据镜像处理队列;若所述本机系统的资源负载值小于第二阈值,则增加数据镜像处理队列;其中第一阈值大于第二阈值。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取外部分布式存储系统的资源情况,并计算外部分布式存储系统当前的资源负载值;若所述外部分布式存储系统的资源负载值大于第三阈值,则减少数据镜像存储队列;若所述外部分布式存储系统的资源负载值小于第四阈值,则增加数据镜像存储队列;其中第三阈值大于第四阈值。5.一种实时大数据镜像存储装置,其特征在于,包括:数据接收模块,用于接收实时数据源;数据镜像处理模块,用于对所述实时数据源中的原始数据进行行列拆分,获取所述原始数据的原始数据记录数;并对所述原始数据...

【专利技术属性】
技术研发人员:涂锋尹启禄顾学伟王建宏刘钰柏黄志豪刘忱
申请(专利权)人:中国移动通信集团广东有限公司中国移动通信集团公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1