一种流计算应用中实现持久化的方法及装置制造方法及图纸

技术编号：11158811 阅读：57 留言：0更新日期：2015-03-18 14:45

本申请公开了一种流计算应用中实现持久化的方法及装置，包括当前批次消息消费成功，根据第一起始偏移量和预先设置的持久化间隔，判断是否需要进行持久化操作；在需要进行持久化操作时，按照第二起始偏移量指示的消息位置进行持久化处理，并在持久化成功后，将第一起始偏移量和第二起始偏移量均更新为下一批次消息的起始偏移量。本申请中的持久化操作是在持久化间隔后进行的，增大了磁盘持久化的时间间隔，从而大大提高实时计算效率。在故障恢复时，最多只需要重新消费持久化间隔内的批次的消息，避免了现有同步持久化中频繁写磁盘带来的性能瓶颈，实时计算的消息吞吐性能提升了一个数量级；同时，将故障恢复带来的延迟缩短到了秒级，不会影响实时性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及流计算技术，尤指一种流计算应用中是实现持久化的方法及装置。
技术介绍
通常，在流计算中将数据流称为消息，而对数据流的一系列计算、处理称为消费。流计算产品主要用于实时计算。实时计算通常在内存中进行，而计算结果要通过某种途径保存并展现出来。目前，主要采用缓存或者持久化到磁盘如数据库（非内存数据库）中两种方式对计算结果进行保存。其中，由于缓存方式没有物理磁盘输入/输出（I/O），因此，缓存方式有着非常卓越的消息吞吐能力；但是，由于计算结果没有持久化，缓存方式几乎没有容错能力，也就是说，一旦出现应用程序中断、服务器宕机、缓存被清空等情况，保存在缓存中的计算结果将无法恢复。而采用持久化到磁盘中的方式，可以实现最高级别的容错功能，但是，持久化到磁盘涉及到大量的磁盘写，这又降低了流计算的计算速度，执行效率大约比采用缓存的方式低一个数量级。图1为现有基本的容错型流计算应用中数据流向示意图，如图1所示，消息中间件集群发送的消息流是一条一条的。为了便于容错，通常流计算产品如图1中的流计算集群对消息流进行消费是以批次为单位的，即将若干条消息捆绑在一个批次中，每一个批次有一个唯一的标识（ID）。对于一个批次的消息，只有批次内的每一条消息都被成功消费后，这个批次的消息才被标记为被成功消费；只要一个批次内有一条消息没有被消费成功，整个批次的消息就会被消息中间件重新发送，被流计算集群重新消费。最终处理...
一种流计算应用中实现持久化的方法及装置

【技术保护点】
一种流计算应用中实现持久化的方法，其特征在于，包括：当前批次消息消费成功，根据用于保存当前正在消费的批次消息在消息队列中的起始位置的第一起始偏移量和预先设置的持久化间隔，判断是否需要进行持久化操作；在需要进行持久化操作时，按照用于保存最近一次持久化操作的下一批次消息在消息队列中的起始位置的第二起始偏移量指示的消息位置进行持久化处理；持久化操作成功后，分别更新第一起始偏移量和第二起始偏移量为下一批次消息的起始偏移量。

【技术特征摘要】
1.一种流计算应用中实现持久化的方法，其特征在于，包括：
当前批次消息消费成功，根据用于保存当前正在消费的批次消息在消息
队列中的起始位置的第一起始偏移量和预先设置的持久化间隔，判断是否需
要进行持久化操作；
在需要进行持久化操作时，按照用于保存最近一次持久化操作的下一批
次消息在消息队列中的起始位置的第二起始偏移量指示的消息位置进行持久
化处理；
持久化操作成功后，分别更新第一起始偏移量和第二起始偏移量为下一
批次消息的起始偏移量。
2.根据权利要求1所述的方法，其特征在于，所述流计算应用正常启动，
或者故障恢复后启动时，该方法还包括：
根据所述第二起始偏移量请求消息，同时将所述第一起始偏移量的值更
改为第二起始偏移量的值。
3.根据权利要求2所述的方法，其特征在于，所述第二起始偏移量的值
为空或者未保存有第二起始偏移量时，所述当前批次消息位于消息中间件的
消息队列的起始位置；
同时还包括：设置所述第一起始偏移量的值为空。
4.根据权利要求1所述的方法，其特征在于，所述持久化操作失败，该
方法还包括：按照所述第一起始偏移量指示，重新对所述当前批次消息中的
消息进行消费。
5.根据权利要求2或4所述的方法，其特征在于，所述判断是否需要进
行持久化操作包括：将所述当前批次的ID除以持久化间隔，当其余数为零
时，判断出需要进行持久化操作；
其中，批次ID为从1开始以递增步长为1的整数。
6.根据权利要求5所述的方法，其特征在于，所述流计算应用正常启动，
或者故障恢复后启动时，所述批次ID接着流计算应用停止前的最后一个成

\t功持久化过...

【专利技术属性】
技术研发人员：刘健男，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人