基于spark的两表连接方法、装置、电子设备及介质制造方法及图纸

技术编号：41506827 阅读：25 留言：0更新日期：2024-05-30 14:47

本发明专利技术提供了一种基于spark的两表连接方法、装置、电子设备及介质，包括：获取第一数据表的连接属性key值和连接属性key值的第一频次，以及第二数据表的连接属性key值和连接属性key值的第二频次，得到第一连接属性集合和第二连接属性集合；基于连接属性key值将第一连接属性集合和第二连接属性集合进行合并和过滤，得到连接属性key值的频次量级分布表；基于频次量级分布表中连接属性key值的第一频次、第二频次和预先设定的参数阈值之间的关系确定对应的连接方式，得到多个子集合；将子集合合并得到第一数据表和第二数据表的连接表。本发明专利技术提高了资源利用率和计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理，尤其是涉及一种基于spark的两表连接方法、装置、电子设备及介质。

技术介绍

1、在大数据处理的背景下，出现了如hadoop、spark等计算框架。spark是一种分布式内存并行计算框架，它以弹性分布式数据集(rdd)为数据结构，并支持迭代计算，在大数据处理中展现出了优秀的性能。在spark环境中，经常会执行数据统计分析、查询等任务，其中等值连接是常用但代价较高的操作之一。特别是在大数据环境下，数据表规模巨大，大表之间的等值关联操作效率更加低下。当数据量大时，shuffle操作会带来大量的网络通信和磁盘i/o。当数据节点上出现数据倾斜问题时，会导致局部节点作业时间长、计算量大，从而导致整体作业时间长、局部节点出现oom内存溢出和计算资源浪费等问题。由于大数据的特性，数据价值密度低，进行连接操作的两个表中通常存在大量不需要join的数据元组，从而影响等值连接操作的计算效率。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于spark的两表连接方法、装置、...

【技术保护点】

1.一种基于spark的两表连接方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述连接属性key值将所述第一连接属性集合和所述第二连接属性集合进行合并和过滤，得到所述连接属性key值的频次量级分布表，包括：

3.根据权利要求2所述的方法，其特征在于，将所述第一频次量级分布表和所述第二频次量级分布表进行合并，得到所述连接属性key值的频次量级分布表之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述预先设定的参数阈值至少包括：第一参数阈值、第二参数阈值、第三参数阈值和第四参数阈值；其中，所述第一参数阈值小于所述...

【技术特征摘要】

1.一种基于spark的两表连接方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述预先设定的参数阈值至少包括：第一参数阈值、第二参数阈值、第三参数阈值和第四参数阈值；其中，所述第一参数阈值小于所述第二参数阈值。

5.根据权利要求4所述的方法，其特征在于，基于所述频次量级分布表中所述连接属性key值的第一频次、第二频次和预先设定的参数阈值之间的关系确定对应的连接方式，得到多个子集合，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述第一频次和所述第二频次的比值与所述第三参数阈值之间的关系...

【专利技术属性】
技术研发人员：廖新考，何盼，
申请(专利权)人：上海勃池信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人