一种保证分布式文件系统数据同步一致性的方法及系统技术方案

技术编号:38533404 阅读:15 留言:0更新日期:2023-08-19 17:05
本发明专利技术提出了一种保证分布式文件系统数据同步一致性的方法及系统。该方法包括如下步骤:响应于获取业务数据的更新周期;根据获取的业务数据的实际更新周期对数据进行二次处理;响应于定期对数据全量进行处理,以保证全部数据为最新。在基于HDFS存储+HIVE分析的离线数仓中使用,在各行各业保证业务数据一致性问题中都适用,特别针对同步的数据量规模大、数据实际更新周期短的场景;通过对大数据量的业务数据采用根据业务数据实际更新周期进行二次处理,结合定期全量处理的方式保证数据一致性,由于读源头库的数据量减少,降低了源头库的读压力。库的读压力。库的读压力。

【技术实现步骤摘要】
一种保证分布式文件系统数据同步一致性的方法及系统


[0001]本专利技术属于大数据处理
,具体涉及一种保证分布式文件系统数据同步一致性的方法及系统。

技术介绍

[0002]随着近年来数据爆炸式的增长,数据仓库的概念在数据治理领域越来越多的被提及,其中在绝大部分场景中用的是基于分布式文件系统HDFS存储的离线数据仓库,其采用HDFS+HIVE的技术架构,基于SPARK计算引擎进行数据处理,既能够解决大数据量存储的问题,又能进行类关系库式的查询分析,在T+1的场景中应用广泛。
[0003]在一些公司企业或单位中,特别注重业务数据的一致性,因为对于业务系统来讲,若不能保证数据一致性,下游业务必然会出现延时。
[0004]在数仓建设中,基于HDFS分布式文件系统存储,无法直接对文件内容进行更新,都是采用累加的方式进行数据同步,数仓中的数据在业务逻辑上会存在重复,或者采用分区的方式全量抽取,抽取完成后在HIVE建表时进行文件路径切换。
[0005]在HDFS+HIVE架构中,对于不断增长的日志类数据,HDFS通过分区方式可以很好的解决;对于业务类数据,由于存在更新的情况,若数据量小,可通过全量+分区切换方式解决,但数据量大时,定时任务全量抽取就很难保证数据及时性,甚至T+1也可能无法保证能够及时更新,并且定时任务全量抽取也会对源库造成较大压力;若采用增量分区的方式存储,又无法保证数据一致性,在HDFS中会存在同一个业务主键的多条数据,下游使用之前必须先去重取最新,才能继续进行数据流转,经常会出现数据分析部门诟病ETL部门无法保证数据的一致性问题。
[0006]有鉴于此,提出一种保证分布式文件系统数据同步一致性的方法及系统是非常具有意义的。

技术实现思路

[0007]为了解决现有无法保证数据的一致性的问题,本专利技术提供一种保证分布式文件系统数据同步一致性的方法及系统,以解决上述存在的技术缺陷问题。
[0008]第一方面,本专利技术提出了一种保证分布式文件系统数据同步一致性的方法,该方法包括如下步骤:
[0009]响应于获取业务数据的更新周期;
[0010]根据获取的业务数据的实际更新周期对数据进行二次处理;
[0011]响应于定期对数据全量进行处理,以保证全部数据为最新。
[0012]优选的,具体包括:
[0013]根据当前任务时间在目标库内取更新周期内的数据文件;
[0014]利用利用SPARK计算引擎进行计算,并将数据写回原分区;
[0015]将计算后的数据文件移动到备份目录,并刷新HIVE表。
[0016]进一步优选的,还包括:在数据同步时,根据增量数据大小进行合适的分区选择,分区按年、月、天、小时来处理,通过控制数据同步的调度频率来保证数据及时性。
[0017]进一步优选的,二次处理具体包括:
[0018]利用SPARK计算引擎,将HDFS文件数据写入内存,借助SPARK

SQL进行去重取最新;
[0019]将数据回写到HDFS对应分区中,以保证数据的一致性。
[0020]进一步优选的,二次处理具体还包括:
[0021]依据业务数据的实际更新周期来进行计算,每次任务只取最近一段时间的数据进行计算取最新。
[0022]第二方面,本专利技术实施例还提供一种保证分布式文件系统数据同步一致性的系统,包括:
[0023]获取模块,用于响应于获取业务数据的更新周期;
[0024]二次处理模块,用于根据获取的业务数据的实际更新周期对数据进行二次处理;
[0025]全量处理模块,用于响应于定期对数据全量进行处理,以保证全部数据为最新。
[0026]进一步优选的,还包括:
[0027]计算引擎模块,用于利用利用SPARK计算引擎进行计算,并将数据写回原分区;
[0028]数据备份模块,用于将计算后的数据文件移动到备份目录,并刷新HIVE表。
[0029]第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0030]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0031]与现有技术相比,本专利技术的有益成果在于:
[0032](1)本专利技术在基于HDFS存储+HIVE分析的离线数仓中使用,在各行各业保证业务数据一致性问题中都适用,特别针对同步的数据量规模大、数据实际更新周期短的场景;通过对大数据量的业务数据采用根据业务数据实际更新周期进行二次处理,结合定期全量处理的方式保证数据一致性,由于读源头库的数据量减少,降低了源头库的读压力。
[0033](2)每次任务拉取业务数据的实际更新周期内的数据进行二次处理,计算的数据体量整体降低,节约了计算资源;处理过程可以选择利用客户端服务器内存进行计算,也可以利用SPARK集群的内存进行计算,灵活便捷。
[0034](3)下游数据使用方不需要再执行去重取最新的操作,提高了数据生产效率,也可以让数据使用方不在因为数据不一致对ETL方进行诟病。
附图说明
[0035]包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
[0036]图1是本专利技术的一个实施例可以应用于其中的示例性装置架构图;
[0037]图2为本专利技术的实施例的保证分布式文件系统数据同步一致性的方法的流程示意
图;
[0038]图3为本专利技术的实施例的保证分布式文件系统数据同步一致性的方法的整体处理逻辑示意图;
[0039]图4为本专利技术的实施例的保证分布式文件系统数据同步一致性的方法具体实现步骤的流程示意图;
[0040]图5为本专利技术的实施例的保证分布式文件系统数据同步一致性的系统的示意图;
[0041]图6是适于用来实现本专利技术实施例的电子设备的计算机装置的结构示意图。
具体实施方式
[0042]在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本专利技术的说明性具体实施例来示出。对此,参考描述的图的取向来使用方向术语,例如“顶”、“底”、“左”、“右”、“上”、“下”等。因为实施例的部件可被定位于若干不同取向中,为了图示的目的使用方向术语并且方向术语绝非限制。应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本专利技术的范围。因此以下详细描述不应当在限制的意义上被采用,并且本专利技术的范围由所附权利要求来限定。...

【技术保护点】

【技术特征摘要】
1.一种保证分布式文件系统数据同步一致性的方法,其特征在于,该方法包括如下步骤:响应于获取业务数据的更新周期;根据获取的业务数据的实际更新周期对数据进行二次处理;响应于定期对数据全量进行处理,以保证全部数据为最新。2.根据权利要求1所述的保证分布式文件系统数据同步一致性的方法,其特征在于,具体包括:根据当前任务时间在目标库内取更新周期内的数据文件;利用利用SPARK计算引擎进行计算,并将数据写回原分区;将计算后的数据文件移动到备份目录,并刷新HIVE表。3.根据权利要求2所述的保证分布式文件系统数据同步一致性的方法,其特征在于,还包括:在数据同步时,根据增量数据大小进行合适的分区选择,分区按年、月、天、小时来处理,通过控制数据同步的调度频率来保证数据及时性。4.根据权利要求3所述的保证分布式文件系统数据同步一致性的方法,其特征在于,二次处理具体包括:利用SPARK计算引擎,将HDFS文件数据写入内存,借助SPARK

SQL进行去重取最新;将数据回写到HDFS对应分区中,以保证数据的一致性。5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:沈洋赵文霞徐璐刘襄雄霍伟波利嘉明
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1