一种分布式数据连接处理方法、装置、设备及存储介质制造方法及图纸

技术编号:20221684 阅读:35 留言:0更新日期:2019-01-28 20:13
本说明书实施例提供了一种分布式数据连接处理方法、装置、设备及存储介质。其方法包括:根据本端的表单数据生成第一布隆过滤器,并将第一布隆过滤器发送给对端;接收对端发送的第二布隆过滤器;合并所述第一布隆过滤器和所述第二布隆过滤器;利用合并后的布隆过滤器对本端的表单数据进行布隆过滤。

【技术实现步骤摘要】
一种分布式数据连接处理方法、装置、设备及存储介质
本说明书实施例涉及数据处理领域,尤其涉及一种分布式数据连接处理方法、装置、设备及存储介质。
技术介绍
数据连接(join)是关系型数据库的一种重要的数据操作,其执行效率的高低往往对整个数据库有着至关重要的影响。在数据库的查询优化技术中,对数据连接操作的优化手段也十分丰富,数据连接操作的顺序以及具体算法都是重要的考虑因素。在分布式数据库中,不同的表单或分区的数据往往分布在不同的物理节点中,跨节点的连接操作往往无法避免,此时,除了执行效率外,还需要考虑数据传输和多节点并发等多方面因素。传统数据库中一个重要的分布式连接优化是使用布隆过滤器,根据连接一侧的数据创建布隆过滤器,并使用该过滤器过滤另外一侧数据,从而避免不必要的数据传输。布隆过滤器(bloomfilter)是一个常见的数据结构,可以用来进行数据的过滤。其本质是一个位向量(bitmap)和一个哈希函数,创建布隆过滤器的过程如下:针对一个数据集合中的每一个元素(即数据),分别使用该哈希函数进行操作,将哈希值在位向量中所对应的位(index)设置为1(如果该位已经为1,则忽略)。这样当处本文档来自技高网...

【技术保护点】
1.一种分布式数据连接处理方法,其特征在于,包括:根据本端的数据集合生成第一布隆过滤器,并将所述第一布隆过滤器发送给对端;接收所述对端发送的第二布隆过滤器,所述第二布隆过滤器是由所述对端根据所述对端的数据集合生成的;利用所述第一布隆过滤器和所述第二布隆过滤器对本端的所述数据集合中的数据进行过滤;对过滤不成功的数据进行数据连接操作。

【技术特征摘要】
1.一种分布式数据连接处理方法,其特征在于,包括:根据本端的数据集合生成第一布隆过滤器,并将所述第一布隆过滤器发送给对端;接收所述对端发送的第二布隆过滤器,所述第二布隆过滤器是由所述对端根据所述对端的数据集合生成的;利用所述第一布隆过滤器和所述第二布隆过滤器对本端的所述数据集合中的数据进行过滤;对过滤不成功的数据进行数据连接操作。2.根据权利要求1所述的方法,其特征在于,所述利用所述第一布隆过滤器和所述第二布隆过滤器对本端的所述数据集合中的数据进行过滤之前,该方法还包括:将所述第一布隆过滤器和所述第二布隆过滤器合并,合并之后的布隆过滤器为双边布隆过滤器;所述利用所述第一布隆过滤器和所述第二布隆过滤器对本端的所述数据集合中的数据进行过滤,包括:利用所述双边布隆过滤器对本端的所述数据集合中的数据进行过滤。3.根据权利要求2所述的方法,其特征在于,所述根据本端的数据集合生成第一布隆过滤器,并将所述第一布隆过滤器发送给对端,包括:读取本端的所述数据集合过程中,周期性地生成第一布隆过滤器并发送给所述对端;所述接收所述对端发送的第二布隆过滤器,包括:周期性地接收所述对端发送的第二布隆过滤器;所述合并所述第一布隆过滤器和所述第二布隆过滤器,包括:每接收到一个第二布隆过滤器,合并当前接收到的第二布隆过滤器与最近一次生成的第一布隆过滤器或合并当前接收到的第二布隆过滤器与当前进行布隆过滤所使用的双边布隆过滤器;所述利用合并后的布隆过滤器对本端的所述数据集合的数据进行过滤,包括:利用最新的双边布隆过滤器对本端的所述数据集合中的数据进行过滤。4.根据权利要求3所述的方法,其特征在于,该方法还包括:缓存过滤成功的数据;利用后续合并的双边布隆过滤器对缓存的数据再次进行过滤。5.根据权利要求4所述的方法,其特征在于,所述利用后续合并的双边布隆过滤器对缓存的表单数据再次进行布隆过滤,包括:利用最后一次合并的双边布隆过滤器对本端的所述数据集合中的数据进行布隆过滤。6.根据权利要求3~5任一项所述的方法,其特征在于,该方法还包括:在读取完本端的数据集合中的全部数据,且未接收到所述对端发送的第二扫描结束指令,向所述对端发送第一扫描结束指令;在接收到所述对端发送的第二扫描结束指令后,利用最近一次生成的第一布隆过滤器对本端的所述数据集合的数据进行过滤。...

【专利技术属性】
技术研发人员:陈萌萌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1