一种应对倾斜数据流在线连接的处理方法技术

技术编号：16546955 阅读：74 留言：0更新日期：2017-11-11 11:44

本发明专利技术涉及一种应对倾斜数据流在线连接的处理方法，其步骤：数据流R和数据流S根据基于键值的哈希函数进行元组划分，各元组被分配至同一侧的不同节点进行存储，并同步将元组发送至另一侧处理单元以完成在线连接的操作；以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息，并搜集发送至预先构建的数据流控制器；若数据流控制器监控到某些处理单元超过负载均衡因子的临界值，则根据启发式规则动态制定迁移策略；在数据迁移之前，将新产生的数据流暂存在Kafka中，暂缓新数据的连接操作；此时，按照迁移策略进行数据流和连接状态信息的迁移，并同步更新路由表；继续发送Kafka中暂存的和新到来的数据，完成后续的在线连接操作。

A method for dealing with online connections of skewed data streams

The invention relates to a processing method, a data stream should tilt online connection which comprises the following steps: data flow and data flow of R S based on hash function based on tuple partition keys, each tuple is assigned to different nodes of the same side of the store, and synchronize the tuples sent to another side processing unit to complete the online connection operation; preset time interval to periodically monitor two figure connection model of each side of the node load statistics collected and sent to the pre built data flow controller; if the data flow controller to monitor some processing Dan Yuanchao critical value of load balance factor, according to the heuristic rules to make dynamic migration strategy in data migration; before the newly generated data stream will exist in the Kafka, the connection operation suspension of new data; at this time, the data flow and connected according to the migration strategy The migration of the state information and the updating of the routing table synchronously; continuing to send the temporary and new arrival data in the Kafka to complete the subsequent online connection operation.

全部详细技术资料下载

【技术实现步骤摘要】
一种应对倾斜数据流在线连接的处理方法
本专利技术涉及一种数据处理方法，特别是关于一种应对倾斜数据流在线连接的处理方法。
技术介绍
一般基于完全二部图的连接模型可支持分布式数据流的连接操作。该模型具有内存高效、易伸缩和可扩展等特性。然而，该模型无法动态分配查询节点，并需要人工干预数据分组的参数设置。尤其是针对倾斜数据的全历史连接查询，模型效率更低。
技术实现思路
针对上述问题，本专利技术的目的是提供一种应对倾斜数据流在线连接的处理方法，该方法能有效应对倾斜数据的连接操作，并进一步提升分布式数据流管理系统的吞吐率，降低云环境中的计算成本。为实现上述目的，本专利技术采取以下技术方案：一种应对倾斜数据流在线连接的处理方法，其特征在于包括以下步骤：1)数据流R和数据流S分别被随机划分成n个节点R1，R2，…，Rn和m个节点S1，S2，…，Sm，将各个节点分别存储在n个或m个处理单元中，且数据流R和数据流S分别位于二部图连接模型的两侧；数据流R和数据流S根据基于键值的哈希函数进行元组划分，数据流R或S的元组被分配至同一侧的不同节点进行存储，并同步将该元组发送至另一侧处理单元以完成...
一种应对倾斜数据流在线连接的处理方法

【技术保护点】
一种应对倾斜数据流在线连接的处理方法，其特征在于包括以下步骤：1)数据流R和数据流S分别被随机划分成n个节点R1，R2，…，Rn和m个节点S1，S2，…，Sm，将各个节点分别存储在n个或m个处理单元中，且数据流R和数据流S分别位于二部图连接模型的两侧；数据流R和数据流S根据基于键值的哈希函数进行元组划分，数据流R或S的元组被分配至同一侧的不同节点进行存储，并同步将该元组发送至另一侧处理单元以完成在线连接的操作；2)以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息，并搜集发送至预先构建的数据流控制器；若数据流控制器监控到某些处理单元超过负载均衡因子的临界值，则根据启发式规则动态...

【技术特征摘要】
1.一种应对倾斜数据流在线连接的处理方法，其特征在于包括以下步骤：1)数据流R和数据流S分别被随机划分成n个节点R1，R2，…，Rn和m个节点S1，S2，…，Sm，将各个节点分别存储在n个或m个处理单元中，且数据流R和数据流S分别位于二部图连接模型的两侧；数据流R和数据流S根据基于键值的哈希函数进行元组划分，数据流R或S的元组被分配至同一侧的不同节点进行存储，并同步将该元组发送至另一侧处理单元以完成在线连接的操作；2)以预先设定时间间隔周期性地监控二部图连接模型每侧节点的负载统计信息，并搜集发送至预先构建的数据流控制器；若数据流控制器监控到某些处理单元超过负载均衡因子的临界值，则根据启发式规则动态制定迁移策略；3)在数据迁移之前，将新产生的数据流暂存在高吞吐量的分布式发布订阅消息系统中，暂缓新数据的连接操作；此时，按照迁移策略进行数据流和连接状态信息的迁移，并同步更新路由表；4)继续发送Kafka中暂存的和新到来的数据，完成后续的在线连接操作。2.如权利要求1所述的一种应对倾斜数据流在线连接的处理方法，其特征在于：所述步骤2)中，设定的启发式规则如下：2.1)规则H1：数据需要迁出的处理单元，如果迁出负载键值的元组后可直接满足非平衡因子阈值的要求，则直接进行迁出操作，并在路由表中记录迁移键值；2.2)规则H2：数据需要迁出的处理单元，如果迁出某些键值的元组后仍不满足非平衡因子阈值的要求，则需要切分具有较高元组数的键值，并将切分后的部分数据进行迁出操作，并在路由表中记录迁移键值；2.3)规则H3：数据需要迁入的处理单元，如果存在键值在路由表中，则优先将该键值的元组合并至哈希函数映射的处理单元，并清空路由表中的记录。3.如权利要求2所述的一种应对倾斜数据流在线连接的处理方法，其特征在于：根据启发式规则，设定迁出元组和迁入元组的基本算法，迁出元组的基本算法为：首...

【专利技术属性】
技术研发人员：孟小峰，王春凯，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人