数据关联方法、装置、设备及存储介质制造方法及图纸

技术编号:38939485 阅读:44 留言:0更新日期:2023-09-25 09:39
本公开提供了一种数据关联方法、装置、设备及存储介质,可以应用于数据处理技术领域。该方法包括:为被驱动表设置索引变量以及设置关联阈值;确定驱动表中的关联变量是否包含索引变量且驱动表是否以索引变量为分布键;其中,驱动表的数据量小于被驱动表的数据量;响应于关联变量包含索引变量且驱动表以索引变量为分布键,对驱动表中与索引变量对应的关联变量进行去重处理;统计与去重后的关联变量对应的索引变量的记录数;响应于记录数不大于关联阈值,将去重后的驱动表关联被驱动表,形成临时表;其中,临时表以去重后的关联变量作为分布键;将驱动表以驱动表中原始的关联变量关联临时表,得到最终连接表。得到最终连接表。得到最终连接表。

【技术实现步骤摘要】
数据关联方法、装置、设备及存储介质


[0001]本公开涉及数据处理领域,可应用于金融科技领域,尤其涉及一种数据关联方法、装置、设备、介质和程序产品。

技术介绍

[0002]Greenplum是一个面向数据仓库应用的关系型数据库,常用的关联方式有三种:哈希连接、嵌套循环连接和组合排序连接。目前,基于数据库的分析工具一般是提供关联步骤供用户自行选择使用,这种方式依赖用户的数据分析能力,对目前使用关联方式的选择需要一定的基础,可能导致关联方式选择不准确的问题。另一方面,针对固定场景设置固定的联系方式,无法支持用户灵活的关联分析场景。

技术实现思路

[0003]鉴于上述问题,本公开提供了数据关联方法、装置、设备、介质和程序产品。
[0004]根据本公开的第一个方面,提供了一种数据关联方法,包括:包括:为被驱动表设置索引变量以及设置关联阈值;确定驱动表中的关联变量是否包含所述索引变量且所述驱动表是否以所述索引变量为分布键;其中,所述驱动表的数据量小于所述被驱动表的数据量;响应于所述关联变量包含所述索引变量且所述驱动表以所述索引变量本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据关联方法,包括:为被驱动表设置索引变量以及设置关联阈值;确定驱动表中的关联变量是否包含所述索引变量且所述驱动表是否以所述索引变量为分布键;其中,所述驱动表的数据量小于所述被驱动表的数据量;响应于所述关联变量包含所述索引变量且所述驱动表以所述索引变量为分布键,对所述驱动表中与所述索引变量对应的关联变量进行去重处理;统计与去重后的关联变量对应的索引变量的记录数;响应于所述记录数不大于所述关联阈值,将去重后的所述驱动表关联所述被驱动表,形成临时表;其中,所述临时表以去重后的关联变量作为分布键;以及将所述驱动表以所述驱动表中原始的关联变量关联所述临时表,得到最终连接表。2.根据权利要求1所述的数据关联方法,其中,所述为被驱动表设置索引变量包括:根据数据库的分布键为所述被驱动表设置Btree索引变量。3.根据权利要求1所述的数据关联方法,其中,所述设置关联阈值包括:对于数据量不同和/或索引分布不同的被驱动表,设置不同大小的关联阈值。4.根据权利要求1或3所述的数据关联方法,其中,所述设置关联阈值还包括:获取所述驱动表关联所述被驱动表的第一关联时间,其中,所述第一关联时间为所述驱动表直接关联所述被驱动表所需的时间;获取所述驱动表关联所述被驱动表的第二关联时间,其中,所述第二关联时间为所述驱动表采用权利要求1

3任一项所述的数据关联方法关联所述被驱动表所需的时间;获取所述被驱动表所允许的最大关联阈值;以及根据所述第一关联时间、所述第二关联时间和所述最大关联阈值调整所述被驱动表当前的关联阈值。5.根据权利要求4所述的数据关联方法,其中,所述根据所述第一关联时间、所述第二关联时间和所述最大关联阈值调整所述被驱动表当前的关联阈值包括:根据所述第一关联时间和所述第二关联时间计算所述驱动表关联所述被驱动表的时间优化率;以及响应于所述时间优化率大于预设优化率且所述被驱动表当前的关联阈值小于最大关联阈值,增大所述被驱动表当前的关联阈值。6.根据权利要求5所述的数据关联方法,其中,所述根据所述第一关联时间和所述第二关联时间计算所述驱动表关联所述被驱动表的时间优化率包括:计算所述所述第一关联时...

【专利技术属性】
技术研发人员:苏宁雍菲田蓝王卫东高永安王博曾晖杨莹
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1