分布式流式计算应用的在线扩容方法、装置、计算机设备制造方法及图纸

技术编号:22387310 阅读:26 留言:0更新日期:2019-10-29 06:29
本申请涉及一种分布式流式计算应用的在线扩容方法、装置、计算机设备和存储介质,该方法包括:当一条数据进入分布式流式计算应用时,在第一数据表中查找该条数据的分区键值所对应的时间戳,并将查找到的该时间戳记为第一时间戳;在第二数据表中查找小于第一时间戳且最接近第一时间戳的时间戳,并将查找到的该时间戳记为第二时间戳;按照预设的分区方式将该条数据分配到第二时间戳所对应的节点列表中的一个节点上。本申请提供的扩容方法,节点增加对于老数据的分布没有影响,不会连带已有的本地状态在节点上的分布发生改变,不需要停机,不会影响到分布式流式计算应用的使用,不需要采用专门的工具对节点上的本地状态进行迁移。

On line expansion methods, devices and computer equipment for distributed flow computing applications

【技术实现步骤摘要】
分布式流式计算应用的在线扩容方法、装置、计算机设备
本申请涉及分布式流式计算应用扩容
,尤其涉及一种分布式流式计算应用的在线扩容方法、装置、计算机设备和存储介质。
技术介绍
流式计算应用是当前大数据领域的新锐技术,它聚焦于实时处理不断产生的数据流,并且实现了本地存储数据流的状态(简称本地状态)、乱序数据处理、自动处理反压等功能,从而具有低时延、高吞吐量等特点。为了应对极高的吞吐量,流式计算应用往往是部署在多台机器上的分布式应用,即不断注入的数据流通过用户定义的方式被分散到多台机器上,每台机器上处理整个数据流的一部分,并存储这部分数据流相关的本地状态,其中每一台机器可以称为一个节点。然而,随着数据流量的加大,往往需要对流式计算应用进行扩容,即增加节点的数量。增加节点之后,已有的数据在节点上的分布会发生改变,连带与数据相关联的本地状态在各节点上的分布也发生变化,因此需要采用专门的工具将原先节点上存储的本地状态进行迁移,此过程需要进行停机。在迁移完成之后,才能重启机器,这样会使得流式应用在一段时间内不可用,而且带来数据迁移的麻烦。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述本文档来自技高网...

【技术保护点】
1.一种分布式流式计算应用的在线扩容方法,其特征在于,包括:当一条数据进入分布式流式计算应用时,在第一数据表中查找该条数据的分区键值所对应的时间戳,并将查找到的该时间戳记为第一时间戳;其中,所述第一数据表中包括多个分区键值以及每一个分区键值首次出现的时间戳;在第二数据表中查找小于所述第一时间戳且最接近所述第一时间戳的时间戳,并将查找到的该时间戳记为第二时间戳;其中,所述第二数据表中包括多个时间戳和每一个时间戳所对应的节点列表,所述多个时间戳包括所述分布式流式计算应用启动时的时间戳和所述分布式流式计算应用每次节点增加完成的时间戳,所述启动时的时间戳所对应的节点列表为所述分布式流式计算应用启动时的...

【技术特征摘要】
1.一种分布式流式计算应用的在线扩容方法,其特征在于,包括:当一条数据进入分布式流式计算应用时,在第一数据表中查找该条数据的分区键值所对应的时间戳,并将查找到的该时间戳记为第一时间戳;其中,所述第一数据表中包括多个分区键值以及每一个分区键值首次出现的时间戳;在第二数据表中查找小于所述第一时间戳且最接近所述第一时间戳的时间戳,并将查找到的该时间戳记为第二时间戳;其中,所述第二数据表中包括多个时间戳和每一个时间戳所对应的节点列表,所述多个时间戳包括所述分布式流式计算应用启动时的时间戳和所述分布式流式计算应用每次节点增加完成的时间戳,所述启动时的时间戳所对应的节点列表为所述分布式流式计算应用启动时的节点的列表,所述每次节点增加完成的时间戳所对应的节点列表为该次所增加的节点的列表;按照预设的分区方式将该条数据分配到所述第二时间戳所对应的节点列表中的一个节点上。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若在所述第一数据表中未查找到该条数据的分区键值所对应的时间戳,则将该条数据进入所述分布式流式计算应用的时间戳作为该条数据的分区键值首次出现的时间戳,将该条数据的分区键值和该分区键值首次出现的时间戳添加至所述第一数据表中,并将该条数据的分区键值首次出现的时间戳作为所述第一时间戳。3.根据权利要求1所述的方法,其特征在于,所述按照预设的分区方式将该条数据分配到所述第二时间戳所对应的节点列表中的一个节点上,包括:将该条数据的分区键值输入预设的分区函数中,得到该条数据的分区结果,并将该条数据分配到所述第二时间戳所对应的节点列表中所述分区结果对应的节点上。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据该条数据,对该条数据所分配的节点上的本地状态进行数据更新。5.根据权利要求1~4任一项所述的方法,其特征在于,所述第一数据表和所述第二数据表存储于所述分布式流式计算应用的入口节点中。6.根...

【专利技术属性】
技术研发人员:易帆段效晨康林赵艳杰秦占明
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1