【技术实现步骤摘要】
大数据拉链表处理方法、装置、设备及存储介质
[0001]本申请涉及数据处理,尤其涉及一种大数据拉链表处理方法、装置、设备及存储介质。
技术介绍
[0002]伴随着金融系统集成化和专业化的提高,用户对金融系统提供的数据服务的要求范围和广度也越来越高。
[0003]金融系统中的数据日变动数量以亿为单位,按照传统实现方法,每个产品系统每日计算出客户的日终持有情况,再进行汇总,每日的数据量达到上百亿,消耗了大量的存储资源,提高了数据的使用成本,同时也降低了系统的稳定性,且需要维护的数据量以每日客户数量成倍增长,维护难度不断上升。实际上金融系统中的数据只是部分发生变化,且不同数据的变化频率不同,例如不同数据分别以日、月以及年为周期变化。
[0004]现有的系统没有考虑金融系统中的数据特点,在低成本和高效率的满足用户的需求方面有所欠缺。
技术实现思路
[0005]本申请提供一种大数据拉链表处理方法、装置、设备及存储介质,用以解决现有的系统没有考虑金融系统中的数据特点,在低成本和高效率的满足用户的需求方面有
【技术保护点】
【技术特征摘要】
1.一种大数据拉链表处理方法,其特征在于,包括:获取拉链表的增量数据,所述拉链表的主键包括客户标识和产品标识,所述拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数,包括:根据所述增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;其中,每个并发线程对应的处理量相同。3.根据权利要求1所述的方法,其特征在于,所述根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理,包括:针对每个并发线程所对应的增量数据,以所述主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;对所述目标数据对应的开链数据进行闭链操作,根据所述目标数据生成新的开链数据,并将所述新的开链数据存储在HBase数据库中。4.根据权利要求1所述的方法,其特征在于,所述获取拉链表的增量数据之前,所述方法还包括:构建所述拉链表,所述拉链表还包括开始时间和结束时间,其中,所述结束时间设置为预设时间,用于指示最新数据,所述开始时间设置为数据发生变化的时间。5.根据权利要求3所述的方法,其特征在于,所述将所述新的开链数据存储在HBase数据库中,所述方法还包括:通过bulkload方式...
【专利技术属性】
技术研发人员:鲜伟,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。