【技术实现步骤摘要】
流式计算的增量持久化方法及其装置
本专利技术涉及分布式计算
,尤其涉及一种流式计算的增量持久化方法及其装置。
技术介绍
流式计算是一种实时分布式计算方法,广泛应用于信息流、广告、网页建库、地图等领域。但随着计算复杂度的增加,流式计算系统对计算结果的要求越来越高,需要将历史计算结果进行持久化来保证流式计算计算结果的准确度。相关技术中,对流式计算结果采用全量持久化机制。然而该机制的持久化过程需要将之前产生的全部数据进行存储。由此可以看出目前的全量持久化机制对于系统资源的消耗极大,对流式计算的实时性能造成影响。为此,研究人员又提出了增量持久化机制,现有的增量持久化机制虽然在持久化过程中只对新增数据进行存储,减少了每一次存储过程中对系统的资源消耗,但是数据存储总量会随着新增数据的增加而不断增加,依然会消耗大量的系统存储资源。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种流式计算的增量持久化方法,以实现在数据恢复时,使用合并后的持久化数据进行计算状态恢复,减少了计算状态恢复时的系统工作量,降低了对系统资源的消耗。本专利技术的第二个目的在于提出一种流式计算的增量持久化装置。本专利技术的第三个目的在于提出一种计算机程序产品。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种流式计算的增量持久化方法,包括:获取当前节点的新增 ...
【技术保护点】
1.一种流式计算的增量持久化方法,其特征在于,所述流式计算由多个节点进行,所述方法包括:/n获取当前节点的新增数据,并将所述新增数据根据操作类型分为多个数据单元;/n将所述多个数据单元存入存储系统;以及/n根据所述操作类型对存入所述存储系统的所述多个数据单元进行合并,以获得所述当前节点的持久化数据。/n
【技术特征摘要】
1.一种流式计算的增量持久化方法,其特征在于,所述流式计算由多个节点进行,所述方法包括:
获取当前节点的新增数据,并将所述新增数据根据操作类型分为多个数据单元;
将所述多个数据单元存入存储系统;以及
根据所述操作类型对存入所述存储系统的所述多个数据单元进行合并,以获得所述当前节点的持久化数据。
2.如权利要求1所述的方法,其特征在于,在所述获得所述当前节点的持久化数据之后,还包括:
根据所述当前节点的持久化数据,对所述当前节点的计算状态进行恢复。
3.如权利要求2所述的方法,其特征在于,所述新增数据包括当前节点的输出结果数据、当前节点的用户状态修改数据、定时器数据中的一种或者多种。
4.如权利要求3所述的方法,其特征在于,所述将所述多个数据单元存入存储系统,包括:
将所述多个数据单元打包为数据块;
根据预设的传输大小阈值和传输时间阈值将多个所述数据块打包为数据组;
将所述数据组存入所述存储系统中当前节点所对应的服务器。
5.如权利要求4所述的方法,其特征在于,所述将所述数据组存入所述存储系统中当前节点所对应的服务器,包括:
获取所述数据组中所述数据单元的数据标识;
根据所述数据标识将所述数据组存入当前节点所对应的服务器。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述操作类型包括插入和删除,所述数据单元包括数据内容,所述根据所述操作类型对所述数据单元进行合并,以获得所述当前节点的持久化数据,包括:
将所述插入类型的数据单元与所述删除类型的数据单元进行比对,以获取数据内容相同的所述插入类型的数据单元与所述删除类型的数据单元;
将所述数据内容相同的所述插入类型的数据单元与所述删除类型的数据单元进行删除,以获得所述当前节点的持久化数据。
7.如权利要求2所述的方法,其特征在于,所述根据所述当前节点的持久化数据,对所述当前节点的计算状态进行恢复,包括:
判断当前节点是否存在异常;
若所述当前节点存在异常,则在所述存储系统中查找所述当前节点的持久化数据;
根据查找的所述当前节点的持久化数据,将所述当前节点的计算状态恢复正常。
8.如权利要求7所述的方法,其特征在于,所述当前节点的持久化数据包括当前节点的用户状态修改数据,定时器数据中的一种或者两种,在所述将所述当前节点的计算状态恢复正常之后,还包括:
获取所述当前节点的上一节点的输出结果数据;
根据所述当前节点的上一节点的输出结果数据,计算所述当前节点的输出结果数据;
在所述存储系统中删除上一节点的输出结果数据;以及
将所述当前节点的输出结果数据传输给下一节点。
9.如权利要求8所述的方法,其特征在于,所述获取所述当前节点的上一节点的输出结果数据,包括:
从所述上一节点获取所述上一节点的输出结果数据,或者
从所述存储系统中获取所述上一节点的输出结果数据。
10.一种流式计算的增量持久化装置,其特征在于,所述装置包括:
获...
【专利技术属性】
技术研发人员:程怡,石然,高伟康,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。