【技术实现步骤摘要】
一种保证分布式文件系统数据同步一致性的方法及系统
[0001]本专利技术属于大数据处理
,具体涉及一种保证分布式文件系统数据同步一致性的方法及系统。
技术介绍
[0002]随着近年来数据爆炸式的增长,数据仓库的概念在数据治理领域越来越多的被提及,其中在绝大部分场景中用的是基于分布式文件系统HDFS存储的离线数据仓库,其采用HDFS+HIVE的技术架构,基于SPARK计算引擎进行数据处理,既能够解决大数据量存储的问题,又能进行类关系库式的查询分析,在T+1的场景中应用广泛。
[0003]在一些公司企业或单位中,特别注重业务数据的一致性,因为对于业务系统来讲,若不能保证数据一致性,下游业务必然会出现延时。
[0004]在数仓建设中,基于HDFS分布式文件系统存储,无法直接对文件内容进行更新,都是采用累加的方式进行数据同步,数仓中的数据在业务逻辑上会存在重复,或者采用分区的方式全量抽取,抽取完成后在HIVE建表时进行文件路径切换。
[0005]在HDFS+HIVE架构中,对于不断增长的日志类数据,HD ...
【技术保护点】
【技术特征摘要】
1.一种保证分布式文件系统数据同步一致性的方法,其特征在于,该方法包括如下步骤:响应于获取业务数据的更新周期;根据获取的业务数据的实际更新周期对数据进行二次处理;响应于定期对数据全量进行处理,以保证全部数据为最新。2.根据权利要求1所述的保证分布式文件系统数据同步一致性的方法,其特征在于,具体包括:根据当前任务时间在目标库内取更新周期内的数据文件;利用利用SPARK计算引擎进行计算,并将数据写回原分区;将计算后的数据文件移动到备份目录,并刷新HIVE表。3.根据权利要求2所述的保证分布式文件系统数据同步一致性的方法,其特征在于,还包括:在数据同步时,根据增量数据大小进行合适的分区选择,分区按年、月、天、小时来处理,通过控制数据同步的调度频率来保证数据及时性。4.根据权利要求3所述的保证分布式文件系统数据同步一致性的方法,其特征在于,二次处理具体包括:利用SPARK计算引擎,将HDFS文件数据写入内存,借助SPARK
‑
SQL进行去重取最新;将数据回写到HDFS对应分区中,以保证数据的一致性。5.根据权利要求4所述的...
【专利技术属性】
技术研发人员:沈洋,赵文霞,徐璐,刘襄雄,霍伟波,利嘉明,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。