一种基于SPARK的大数据自动化稽核系统及方法技术方案

技术编号：39187092 阅读：20 留言：0更新日期：2023-10-27 08:34

本发明专利技术提供了一种基于SPARK的大数据自动化稽核系统及方法，涉及互联网架构领域，包括：平台层，采用hadoop+Spark生态体系，为组件能力层提供数据处理支撑；组件能力层，设置规则模型和规则引擎，规则引擎依赖规则模型对待稽核的数据集进行解析、汇聚和清洗加工，得到包含所有计算因子的内存数据宽表；根据稽核应用对包含所有计算因子的内存数据宽表进行数据稽核分析和数据统计；对稽核分析结果和统计结果进行沉淀，得到最终分析结果并输出；展示层，对组件能力层得到的稽核分析结果、统计结果及最终分析结果进行展示。本发明专利技术实现了大数据场景下，数据的快速配置化、自动化批量比对，为固费业务稽核等大数据处理业务提供保障。费业务稽核等大数据处理业务提供保障。费业务稽核等大数据处理业务提供保障。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SPARK的大数据自动化稽核系统及方法

[0001]本专利技术属于互联网架构领域，尤其是涉及一种基于SPARK的大数据自动化稽核系统及方法。

技术介绍

[0002]随着业务的发展，对综合账务系统的要求越来越高，系统在支撑业务过程中也逐渐显露出不足，主要为固费计算(账务系统一个模块，主要用于收费月租)端到端环节保障机制不完善、月末出账过程繁琐及出账风险高。
[0003]固费计算端到端环节保障机制不完善，存在数据丢失风险、客户投诉风险、收入流失风险、客诉难以追溯等问题。
[0004]数据同步和过滤规则复杂，业务处理规则及流程复杂，数据量的庞大等原因决定了无法通过简单稽核比对确定数据同步的完整性、固费计算的准确性，存在“跑、冒、滴、漏”的风险。
[0005]传统的技术或者方法是将数据入到ORACLE数据库，进行多级关联，生成层中间表进行比较。但由于数据量庞大，每天产生200GB左右的数据量，经过层层转换达到TB级别量级，造成ORACLE存储不足；此外大量的数据的关联计算，需要大量的算力，ORACLE...

【技术保护点】

【技术特征摘要】
1.一种基于SPARK的大数据自动化稽核系统，其特征在于，包括：平台层、组件能力层、应用层和展示层；所述平台层，用于：采用hadoop+Spark生态体系，通过技术栈为所述组件能力层提供数据处理支撑；所述组件能力层，用于：设置多种规则模型和多种规则引擎，规则引擎依赖规则模型对待稽核的数据集进行解析、汇聚和清洗加工，得到包含所有计算因子的内存数据宽表；根据所述应用层的稽核应用对包含所有计算因子的内存数据宽表进行数据稽核分析和数据统计，得到稽核分析结果和统计结果；对所述稽核分析结果和统计结果进行沉淀，得到最终分析结果并输出；所述应用层，用于：根据应用场景构建各种稽核应用；所述展示层，用于：对所述组件能力层得到的稽核分析结果、统计结果及最终分析结果进行展示。2.根据权利要求1所述的基于SPARK的大数据自动化稽核方法，其特征在于：所述平台层设置Mysql数据库；所述组件能力层得到的稽核分析结果和统计结果沉淀归档至所述Mysql数据库。3.根据权利要求1所述的基于SPARK的大数据自动化稽核方法，其特征在于：所述规则模型包括数据解析规则、数据分析规则、数据预处理规则和数据统计规则；所述规则引擎包括数据汇聚规则引擎、数据清洗加工规则引擎、数据沉淀规则引擎、数据解析规则引擎、数据分析规则引擎和数据报表规则引擎。4.根据权利要求3所述的基于SPARK的大数据自动化稽核方法，其特征在于：规则引擎依赖规则模型对待稽核的数据集进行解析、汇聚和清洗加工，得到包含所有计算因子的内存数据宽表；包括：为待稽核的数据集匹配相应的数据预处理规则，所述数据解析规则引擎依赖匹配到的数据预处理规则对数据集进行数据预处理，生成结构化、可序列化的内存数据对象；匹配相应的数据分析规则和数据解析规则，所述数据汇聚规则引擎依赖匹配到的数据分析规则、所述数据清洗加工规则引擎依赖匹配到的数据解析规则对所述内存数据对象进行层层汇聚和清洗加工，最终生成包含所有计算因子的内存数据宽表。5.根据权利要求4所述的基于SPARK的大数据自动化稽核方法，其特征在于：在所述平台层创建内存临时表，保存数据预处理后生成的内存数据对象。6.根据权利要求1所述的基于SPARK...

【专利技术属性】
技术研发人员：蒋敏钟，
申请(专利权)人：北京思特奇信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人