一种基于多维中间态聚合的银行流计算业务实时指标系统技术方案

技术编号:34533645 阅读:16 留言:0更新日期:2022-08-13 21:27
本发明专利技术公开了一种基于多维中间态聚合的银行流计算业务实时指标系统,该系统中的预处理模块接收来自Kafka消息队列的实时交易流水并与全量数据库Redis模块进行交互。特征处理模块对预处理数据的特征进行筛选和组合以生成中间态记录。指标聚合模块由多个聚合计算节点组成,根据聚合方式将中间态记录分散到不同的计算节点进行聚合。聚合运算过程使用并行的计算方式可使用底层计算资源进行加速,并将最终的计算结果存储到中间态数据库MemDB模块中。本发明专利技术能够提升计算资源使用效率,均衡计算负载,并有效的减少系统IO负载,以达到银行流计算业务指标在实时性方面的要求。流计算业务指标在实时性方面的要求。流计算业务指标在实时性方面的要求。

【技术实现步骤摘要】
一种基于多维中间态聚合的银行流计算业务实时指标系统


[0001]本专利技术涉及银行流计算数据处理领域,尤其是指一种基于多维中间态聚合的银行流计算业务实时指标系统。

技术介绍

[0002]随着大数据时代的到来,很多的金融场景中会出现多维数据,如银行流水数据,股票交易数据,信用卡账户数据等。这些数据通常包含多个特征,特征计算系统在处理这些不同的特征时往往会使用不同的计算方法,如求和、取平均、最大最小值等。然而随着业务复杂程度的提升,特征计算系统所需要处理的数据量急速增加,很多的金融场景需要对业务对象建立多维度的特征体系以及对不同的特征需要采用不同的处理方式,这些都对系统的性能提出了新的挑战。
[0003]银行流计算业务作为金融领域中重要的部分,其对系统的实时性有着较高的要求,目前大多数的实时指标系统都采用的是主流的经典流计算架构,在复杂的业务场景下,该架构暴露出两个问题:一是由于流式计算框架并不针对底层数据存储的管理和优化,每一次业务事件的处理都需要从底层数据库中取出相关数据并输入到计算框架中去,这便会造成系统IO负载;二是由多维数据导致的不同的特征处理方式会造成额外的数据处理的开销以及计算资源的浪费,这也使得特征计算系统的运维成本大幅提高。以上两个问题使得经典流计算架构并不能满足银行流计算业务指标系统对于实时性的要求。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的不足,提出一种基于多维中间态聚合的银行流计算业务实时指标系统,通过对全量数据进行特征处理生成中间态记录并聚合,再与中间态数据库中的原始记录进行比对和更新的方式实现银行流计算指标业务。该系统可以提高多维数据的计算效率,节省计算资源,减少系统的IO负载,以达到银行流计算业务在实时性方面的要求。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于多维中间态聚合的银行流计算业务实时指标系统,该系统包括预处理模块、全量数据库Redis模块、ETL模块、特征处理模块、指标聚合模块和中间态数据库MemDB模块;
[0006]所述预处理模块用于接收来自Kafka消息队列的实时交易流水数据,根据业务需求从全量数据库Redis模块中取出指定时间区间的全量历史数据以及将新的实时交易流水数据进行保存,并将由全量数据库Redis模块中取出的历史数据以及Kafka消息队列的实时交易流水数据一并发送至ETL模块;
[0007]所述全量数据库Redis模块用于银行流计算业务相关的完整的未经处理的多维数据;
[0008]所述ETL模块用于对预处理模块发送的Kafka消息队列的实时交易流水数据以及全量数据库Redis模块的历史数据进行清洗和标准化,将数据按照维度对齐并统一格式,将
全量数据库Redis模块中的历史数据以及来自Kafka的实时交易流水数据转化为标准数据发送至特征处理模块;
[0009]所述特征处理模块对经过清洗和标准化的多维数据根据业务需求进行特征筛选,并根据指标聚合模块的聚合方式对筛选后的多维特征进行分组,形成指定格式的多维中间态记录;具体为:特征处理模块包含多种列表,每个列表对应一种指标聚合模块的聚合方式,每个列表中包含多维特征;每个列表根据业务需求决定特征数量以及特征组合格式;
[0010]所述指标聚合模块由多个聚合节点组成,每个聚合节点执行一种聚合方式,将特征处理模块得到的多维中间态记录按照对应的聚合方式分配到不同的聚合节点中进行聚合运算,将结果发送至中间态数据库MemDB模块;
[0011]所述中间态数据库MemDB模块用于存储聚合运算后的指标计算结果,为银行流计算业务提供指标判断依据。
[0012]进一步地,所述特征处理模块中的特征组合格式指的是对于每个特定业务场景下的某类特定数据,将其多个特征按照指定顺序进行排列,列表内直接存储每个特征的具体数值。
[0013]进一步地,所述指标聚合模块中每个聚合计算节点中的所需处理的多维中间态记录的聚合方式相同,采用先将可聚合数据组合再统一聚合的方式进行并行运算,避免单一中间态记录聚合时的串行运算,提升聚合效率。
[0014]进一步地,所述指标聚合模块的多维特征的聚合方法,包括取最大值、最小值、求和以及求平均值。
[0015]进一步地,所述特征处理模块获取用于数据聚合所需的额外辅助数据,包括待聚合时序数据的时间戳以及求取平均值时需要记录的数据总量。
[0016]本专利技术的优点及有益效果是:
[0017](1)减少存储多维中间态记录所需空间:通过对业务需求进行分析,定义指定的特征组合格式,可以省去存储每个特征字段名的空间。
[0018](2)减少系统IO负载:系统会根据业务需求制定数据库读写方案,只需要从全量数据库中读取少量未经聚合处理过的数据,同时采用聚合中间态记录的方式,无需频繁的对全量数据库进行读写操作,从而减少了系统IO负载。
[0019](3)提升系统计算资源使用效率:通过采用按照聚合方式对特征进行分组的方法可将中间态记录分发到各个指定聚合方式的计算节点中去,分散了系统计算负载;多维中间态记录可以使系统同时对多个特征进行运算,另外采用先组合再统一聚合的计算方式将串行运算变为并行计算,可以使用如GPU等计算资源对计算过程进行加速,从而大大提升了计算资源的使用效率。
[0020](4)通过减少系统IO负载以及提升系统运算效率的方式,可以很好的满足银行流计算业务实时指标系统对于性能方面的要求。
附图说明
[0021]图1为本专利技术之较佳实施例的结构框图。
[0022]图2为多维中间态记录结构图。
具体实施方式
[0023]下面结合附图对本专利技术作进一步描述。
[0024]如图1所示,本专利技术提供了一种基于多维中间态聚合的银行流计算业务实时指标系统,包括预处理模块、全量数据库Redis模块、ETL(Extract

Transform

Load)模块、特征处理模块、指标聚合模块、中间态数据库MemDB模块。
[0025]本专利技术中以银行流计算业务中的信用卡相关业务进行说明,该业务场景通常为统计当月所有客户的单笔消费最大值、单笔还款最大值、累计消费总值和信用卡使用次数等,因此按照聚合方式可对业务需求作出以下分类:
[0026]1.求最大值:单笔消费金额,单次累积信用积分,单次还款金额等;
[0027]2.求和:消费总额,还款总额,消费频次,信用总积分等;
[0028]3.求平均:平均日支出,平均月支出,平均年支出等。
[0029]面对以上业务需求,可以为每种聚合方式定义指定的特征组合格式,如“最大值”业务的特征组合为(消费金额

还款金额

信用积分),因此在传递这一业务需求的中间态记录时不需要描述特征的字段,而是直接按照上述格式传递每一特征具体的值即可。
[0030]预处理模块会根据来自Kafka消息队列的实时交易流水、全量数据库R本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维中间态聚合的银行流计算业务实时指标系统,其特征在于,该系统包括预处理模块、全量数据库Redis模块、ETL模块、特征处理模块、指标聚合模块和中间态数据库MemDB模块;所述预处理模块用于接收来自Kafka消息队列的实时交易流水数据,根据业务需求从全量数据库Redis模块中取出指定时间区间的全量历史数据以及将新的实时交易流水数据进行保存,并将由全量数据库Redis模块中取出的历史数据以及Kafka消息队列的实时交易流水数据一并发送至ETL模块;所述全量数据库Redis模块用于银行流计算业务相关的完整的未经处理的多维数据;所述ETL模块用于对预处理模块发送的Kafka消息队列的实时交易流水数据以及全量数据库Redis模块的历史数据进行清洗和标准化,将数据按照维度对齐并统一格式,将全量数据库Redis模块中的历史数据以及来自Kafka的实时交易流水数据转化为标准数据发送至特征处理模块;所述特征处理模块对经过清洗和标准化的多维数据根据业务需求进行特征筛选,并根据指标聚合模块的聚合方式对筛选后的多维特征进行分组,形成指定格式的多维中间态记录;具体为:特征处理模块包含多种列表,每个列表对应一种指标聚合模块的聚合方式,每个列表中包含多维特征;每个列表根据业务需求决定特征数量以及特征组合格式;所述指标聚合模块由多个聚合节点组...

【专利技术属性】
技术研发人员:陈伟王刚唐迪佳鲁萍杨运平
申请(专利权)人:浙江邦盛科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1