【技术实现步骤摘要】
一种应用于故障恢复的数据去重方法和装置
本专利技术涉及计算机
,尤其涉及一种应用于故障恢复的数据去重方法和装置。
技术介绍
Spark是迭代式的内存计算框架,具有很好的高可用性。SparkStreaming作为其模块之一,常被用于进行实时的流式计算。实时的流式处理系统必须是7*24运行的,同时可以从各种各样的系统错误中恢复。在实际使用中,数据容错和数据无丢失显得尤为重要,现有技术通过checkpoint和WAL(WriteAheadLogs,预写日志系统)可以做到数据不丢失:1)checkpoint机制,通过不断将计算过程中的状态保存至指定文件中,可保证其容错性,类似于快照。当Spark程序出现故障或节点宕机时,重启后可以从指定文件中获取所需要的信息,以恢复计算状态;2)针对Spark的receiver方式,设置WAL用来改进其恢复机制,保证数据的无丢失。SparkStreaming在接收数据时,会将其直接保存在内存中,但若Spark的节点出现宕机则可能导致数据丢失。针对这种情况,利用WAL将所 ...
【技术保护点】
1.一种应用于故障恢复的数据去重方法,其特征在于,包括:/n接收实时数据,确定所述实时数据中的主键信息;/n若主体文件中存在与所述主键信息相应的历史数据,则比较所述实时数据和所述历史数据的时间戳;/n提取时间戳最新的所述实时数据或所述历史数据,作为与所述主键信息相应的最新数据记录,并保存至所述主体文件中进行记录更新。/n
【技术特征摘要】
1.一种应用于故障恢复的数据去重方法,其特征在于,包括:
接收实时数据,确定所述实时数据中的主键信息;
若主体文件中存在与所述主键信息相应的历史数据,则比较所述实时数据和所述历史数据的时间戳;
提取时间戳最新的所述实时数据或所述历史数据,作为与所述主键信息相应的最新数据记录,并保存至所述主体文件中进行记录更新。
2.根据权利要求1所述的方法,其特征在于,所述若主体文件中存在与所述主键信息相应的历史数据,则比较所述实时数据和所述历史数据的时间戳之前,还包括:
存储所述实时数据至与所述主键信息相应的实时文件中;
统计所述实时文件当前的存储量,若所述存储量超出所述实时文件的存储量阈值,则根据所述实时文件的名称,确定与所述名称相应的主体文件。
3.根据权利要求2所述的方法,其特征在于,所述存储所述实时数据至与所述主键信息相应的实时文件中,包括:
获取实时文件的总数量,用所述主键信息对文件总数量取余数,确定与所述余数相应的实时文件,以存储所述实时数据至所确定的实时文件中。
4.根据权利要求1所述的方法,其特征在于,还包括:
若所述主体文件中不存在与所述主键信息相应的历史数据,则将所述实时数据作为最新数据记录,并保存至所述主体文件中进行记录存储。
5.根据权利要求1所述的方法,其特征在于,在提取时间戳最新的所述实时数据或所述历史数据,作为与所述主键信息相应的最新数据记录,并保存至所述主体文件中进行记录更新之后,还包括:
接收与所述主键信息相应的数据读取请求,提取所述主体文件中的所述最新数据记录并输出。
6.一种应用于故障恢复的数据去重装置,其特征在于,包括:
主键信息确定模块,用于接收实时数据,确定所述实时数据中的主键...
【专利技术属性】
技术研发人员:安金龙,刘业辉,张宁,张飞,王彦明,张增,高相斌,
申请(专利权)人:北京沃东天骏信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。