一种基于Spark和Hadoop的数据对账方法及系统技术方案

技术编号:38484025 阅读:14 留言:0更新日期:2023-08-15 17:00
本发明专利技术涉及数据对账技术领域,尤其涉及一种基于Spark和Hadoop的数据对账方法及系统,所述数据对账系统与业务系统通信连接;所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;所述方法包括:S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件;S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。本发明专利技术能快速进行对账校验,且得到准确的校验结果。且得到准确的校验结果。且得到准确的校验结果。

【技术实现步骤摘要】
一种基于Spark和Hadoop的数据对账方法及系统


[0001]本专利技术涉及数据对账
,尤其涉及一种基于Spark和Hadoop的数据对账方法及系统。

技术介绍

[0002]随着金融业的发展,金融场景在不断的丰富中,资金交易的类型在不断增加,对资金交易的安全把控也越来越严格,凡是涉及到资金的交易都应该做对账以确保资金安全,如每个月底,财务员都会上传个人整理的Excle格式的明细记账表或者是汇总记账表,导入总公司的业务系统进行对账校验。因此,对账的需求在不断增加。
[0003]现有的对账中,如图1所示,财务员通过业务系统的对账前端上传记账表,再使用Java读取上传的记账表,并与业务系统的数据库MySql进行对比校验,虽然能够得到校验结果,但会有如下的问题:
[0004]1.当上传的记账表数据特别多的时候,使得校验时间特别漫长,且校验程序容易中途挂掉,导致对账检验不准确和不完整。
[0005]2.由于是在业务系统的原有数据库进行校验,当上传的记账表数据特别多的时候,极大影响了整个系统的运行。

技术实现思路

[0006]本专利技术的目的在于提出一种基于Spark和Hadoop的数据对账方法及系统,能快速进行对账校验,且得到准确的校验结果。
[0007]为达此目的,本专利技术采用以下技术方案:
[0008]一种基于Spark和Hadoop的数据对账方法,应用于一种基于Spark和Hadoop的数据对账系统,所述数据对账系统与业务系统通信连接;
[0009]所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
[0010]所述数据中台包括Hadoop平台和Hive数据库;
[0011]所述对账后台包括Spark程序;
[0012]所述调度服务器用于对所述系统中的工作流运行进行管理;
[0013]所述方法包括:
[0014]S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
[0015]S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;
[0016]S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件,具体包括:
[0017]S31、使用Spark

Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
[0018]S32、使用Spark on Hive方式对对账数据表进行映射,得到SparkSql的第二临时
表;
[0019]S33、根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
[0020]S34、将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件;
[0021]S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。
[0022]优选的,所述调度服务器为DolphinScheduler。
[0023]优选的,所述初始数据表包括明细表和汇总表,所述对应的对账模板包括明细表对账模板和汇总表对账模板;
[0024]所述根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;具体包括以下步骤:
[0025](1)当初始数据表为明细表时,对第一临时表中的配置字段和第二临时表的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、贸易单号、日期、贸易类型、申请方、采购方、金额和服务费;
[0026](2)当初始数据表为汇总表时,对第二临时表进行配置字段的汇总,再与对第一临时表中的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、日期、贸易类型和金额。
[0027]一种基于Spark和Hadoop的数据对账系统,采用如上述所述的一种基于Spark和Hadoop的数据对账方法;所述数据对账系统与业务系统通信连接;
[0028]所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
[0029]所述数据中台包括Hadoop平台和Hive数据库;
[0030]所述对账后台包括Spark程序;
[0031]所述调度服务器用于对所述系统中的工作流运行进行管理。
[0032]优选的,所述对账前端包括录入模块、校验模块、中转模块和下载模块;
[0033]所述录入模块用于录入相关的初始数据表和对账模板到对账前端中;
[0034]所述校验模块用于对相关的初始数据表和对账模板进行校验;
[0035]所述中转模块用于将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
[0036]所述下载模块用于下载对账文件。
[0037]优选的,所述数据中台包括抽取模块;
[0038]所述抽取模块包括抽取业务系统中相关的对账数据表到数据中台的Hive数据库。
[0039]优选的,所述对账后台包括数据对账模块和数据模板模块;所述数据对账模块包括第一数据对账子模块、第二数据对账子模块和第三数据对账子模块;
[0040]所述数据对账模块用于将初始数据表和对账数据表进行数据对账;
[0041]所述第一数据对账子模块用于使用Spark

Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
[0042]所述第二数据对账子模块用于使用Spark on Hive方式对对账数据表进行映射,得到SparkSql的第二临时表;
[0043]所述第三数据对账子模块用于根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
[0044]所述数据模板模块用于将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件。
[0045]优选的,所述调度服务器包括通知模块;
[0046]所述通知模块用于通知对账前端进行下载信息。
[0047]上述技术方案中的一个技术方案具有以下有益效果:
[0048](1)通过数据对账系统,实现在对账前端上传数据、在数据中台进行处理、在数据后台进行对账以及调度服务器进行调度协调,剥离了原本的业务系统,减少了业务系统的占用资源,保证业务系统能够正常运行。
[0049](2)通过基于Spark和Hadoop的数据对账方法,根据对账逻辑和配置字段进行对比校验,生成对账结果;使数据对账过程更加稳定和准时,校验的结果更加完整准确。
附图说明
[0050]图1是现有技术的数据对账方法的流程示意图;
[0051]图2是本专利技术在一种基于Spark和Hadoop的数据对账方法的流程示意图;
[0052]图3是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark和Hadoop的数据对账方法,其特征在于,应用于一种基于Spark和Hadoop的数据对账系统,所述数据对账系统与业务系统通信连接;所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;所述数据中台包括Hadoop平台和Hive数据库;所述对账后台包括Spark程序;所述调度服务器用于对所述系统中的工作流运行进行管理;所述方法包括:S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件,具体包括:S31、使用Spark

Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;S32、使用SparkonHive方式对对账数据表进行映射,得到SparkSql的第二临时表;S33、根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;S34、将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件;S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。2.根据权利要求1所述的一种基于Spark和Hadoop的数据对账方法,其特征在于,所述调度服务器为DolphinScheduler。3.根据权利要求2所述的一种基于Spark和Hadoop的数据对账方法,其特征在于,所述初始数据表包括明细表和汇总表,所述对应的对账模板包括明细表对账模板和汇总表对账模板;所述根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;具体包括以下步骤:(1)当初始数据表为明细表时,对第一临时表中的配置字段和第二临时表的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、贸易单号、日期、贸易类型、申请方、采购方、金额和服务费;(2)当初始数据表为汇总表时,对第二临时表进行配置字段的汇总,再与对第一临时表中的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其...

【专利技术属性】
技术研发人员:梁英林孔令超林国友
申请(专利权)人:西藏众陶联供应链服务有限公司林周佳住家网络科技有限公司林周利利佳供应链服务有限公司共青城市众陶联供应链服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1