一种保证分布式文件系统数据同步一致性的方法及系统技术方案

技术编号：38533404 阅读：36 留言：0更新日期：2023-08-19 17:05

本发明专利技术提出了一种保证分布式文件系统数据同步一致性的方法及系统。该方法包括如下步骤：响应于获取业务数据的更新周期；根据获取的业务数据的实际更新周期对数据进行二次处理；响应于定期对数据全量进行处理，以保证全部数据为最新。在基于HDFS存储+HIVE分析的离线数仓中使用，在各行各业保证业务数据一致性问题中都适用，特别针对同步的数据量规模大、数据实际更新周期短的场景；通过对大数据量的业务数据采用根据业务数据实际更新周期进行二次处理，结合定期全量处理的方式保证数据一致性，由于读源头库的数据量减少，降低了源头库的读压力。库的读压力。库的读压力。

全部详细技术资料下载

【技术实现步骤摘要】
一种保证分布式文件系统数据同步一致性的方法及系统

[0001]本专利技术属于大数据处理
，具体涉及一种保证分布式文件系统数据同步一致性的方法及系统。

技术介绍

[0002]随着近年来数据爆炸式的增长，数据仓库的概念在数据治理领域越来越多的被提及，其中在绝大部分场景中用的是基于分布式文件系统HDFS存储的离线数据仓库，其采用HDFS+HIVE的技术架构，基于SPARK计算引擎进行数据处理，既能够解决大数据量存储的问题，又能进行类关系库式的查询分析，在T+1的场景中应用广泛。
[0003]在一些公司企业或单位中，特别注重业务数据的一致性，因为对于业务系统来讲，若不能保证数据一致性，下游业务必然会出现延时。
[0004]在数仓建设中，基于HDFS分布式文件系统存储，无法直接对文件内容进行更新，都是采用累加的方式进行数据同步，数仓中的数据在业务逻辑上会存在重复，或者采用分区的方式全量抽取，抽取完成后在HIVE建表时进行文件路径切换。
[0005]在HDFS+HIVE架构中，对于不断增长的日志类数据，HD...

【技术保护点】

【技术特征摘要】
1.一种保证分布式文件系统数据同步一致性的方法，其特征在于，该方法包括如下步骤：响应于获取业务数据的更新周期；根据获取的业务数据的实际更新周期对数据进行二次处理；响应于定期对数据全量进行处理，以保证全部数据为最新。2.根据权利要求1所述的保证分布式文件系统数据同步一致性的方法，其特征在于，具体包括：根据当前任务时间在目标库内取更新周期内的数据文件；利用利用SPARK计算引擎进行计算，并将数据写回原分区；将计算后的数据文件移动到备份目录，并刷新HIVE表。3.根据权利要求2所述的保证分布式文件系统数据同步一致性的方法，其特征在于，还包括：在数据同步时，根据增量数据大小进行合适的分区选择，分区按年、月、天、小时来处理，通过控制数据同步的调度频率来保证数据及时性。4.根据权利要求3所述的保证分布式文件系统数据同步一致性的方法，其特征在于，二次处理具体包括：利用SPARK计算引擎，将HDFS文件数据写入内存，借助SPARK
‑
SQL进行去重取最新；将数据回写到HDFS对应分区中，以保证数据的一致性。5.根据权利要求4所述的...

【专利技术属性】
技术研发人员：沈洋，赵文霞，徐璐，刘襄雄，霍伟波，利嘉明，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人