一种流式数据处理方法及装置制造方法及图纸

技术编号:20484807 阅读:37 留言:0更新日期:2019-03-02 18:56
本发明专利技术涉及一种流式数据处理方法及装置,应用于大数据综合处理系统,所述大数据综合处理系统对接多个信托综合账户系统,所述多个信托综合账户系统包括订单系统和多个系统内部子系统;所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive,包括如下步骤:从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识,通过所述spark完成对每个子系统相关表增加全局标识的任务。

【技术实现步骤摘要】
一种流式数据处理方法及装置
本专利技术涉及大数据处理领域,尤其涉及一种基于大数据处理技术的流式数据处理方法及装置。
技术介绍
现有的流式数据处理应用较为广泛,流式数据处理的特点是持续生成订单数据和消费数据。信账宝账户系统是以信托法理为依据开发的集权益账户、财产账户和资金账户功能为一体的综合金融账户。信账宝系统以信托法理制度为基础,以账户系统为核心。账户系统功能延展性极强,具有极强的金融业务牌照属性。信托账户是权益账户和资金账户功能为一体的综合金融账户,能够全面对个人/法人“存款、投资、保险、消费、贷款”各类金融资产和负债进行管理的信托综合账户系统。由于信托业务本身的特点,信账宝账户系统的账户类型较多,且账户之间关联关系复杂多样;系统内订单流转流程复杂,由于与外部系统的对接导致订单完成存在时延不确定的问题,即订单完成的时间不确定;系统内各子系统之间没有统一的订单编号;这些客观原因导致在系统内追踪订单较困难,且整个系统较难做到将某个业务流程的完整订单流程串联起来。如果通过对业务系统进行修改来解决上述问题,一方面业务逻辑流程需要较大改动,表结构及所有涉及的接口都需要修改;另一方面,对于大量历史数据的处理也需要慎重考虑。因此业务系统改动代价比较大。spark是一个快速且通用的集群计算系统。它提供了Java、Scala、Python和R的高级api,以及支持一般执行图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的SparkSQL、用于机器学习的MLlib、用于图形处理的GraphX和Spark流。oozie是一个管理Hadoop作业的工作流调度系统。oozie与Hadoop堆栈的其他部分集成在一起,支持多种类型的Hadoop作业(如map-reduce、Pig、Hive、Sqoop)以及特定于系统的工作(如Java程序和shell脚本),也支持spark类型作业。oozie是一个可扩展、可靠和可扩展的系统。
技术实现思路
本专利技术的目的在于提供一种对已有业务系统的数据在宏观层面进行改造,不需要现有业务系统进行任何改动,将各子系统间的订单数据增加全局标识,从而易于将数据进行关联融合。本专利技术的技术方案为,一种流式数据处理方法,其特征在于,应用于大数据综合处理系统,所述大数据综合处理系统对接多个信托综合账户系统,所述多个信托综合账户系统包括订单系统和多个系统内部子系统;所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive,包括如下步骤:从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识,通过所述spark完成对每个子系统相关表增加全局标识的任务;从所述系统内部子系统的业务数据库采集业务数据并在所述离线计算模块hive仓库对应建表,建立原始订单数据表A、B、C,作为后续工作流任务的输入dataset;完成所述数据表A的采集和hive建表后,对所述数据表A增加全局标识字段的spark任务将检测到数据表A已完成采集建表,自动启动对所述数据表A增加全局标识字段的任务;所述完成增加全局标识字段任务后的数据表A将作为下游订单数据表B处理的输入dataset;进一步地,对所述数据表B增加全局标识字段的spark任务作为一个工作流,它依赖所述数据表B和增加全局标识字段后的所述数据表A作为输入dataset,即对所述数据表B增加全局标识字段的spark任务工作流会检测到所述数据表B采集建表完成、并且所述数据表A增加全局标识字段的spark任务也完成后,才会自动启动对所述数据表B增加全局标识字段的任务,并且完成增加全局标识字段任务后的所述数据表B将作为下游订单数据表C处理的输入dataset;进一步地,对数据表C增加全局标识字段的spark任务与前面任务类似,后续流程以此类推。进一步地,所述大数据综合处理系统从所述业务数据库采集业务数据的步骤中,采集的频率按实时性要求来进行调整。进一步地,所述大数据综合处理系统包括资源管理与调度模块Yarn、分布式文件系统HDFS、全量/增量采集模块Sqoop,以及工作流调度模块oozie。进一步地,所述全量/增量采集模块Sqoop从业务数据库采集到数据,存储在所述分布式文件系统HDFS,在此基础上建立了hive仓库;对于采集过来的数据通过所述spark进行整合,统计、分析,数据挖掘;这些采集数据任务,及spark任务,通过所述oozie调度系统统一进行调度执行;由应用层向外提供全面的数据服务。一种流式数据处理装置,应用于大数据综合处理系统,所述大数据综合处理系统对接多个信托综合账户系统,所述多个信托综合账户系统包括订单系统和多个系统内部子系统;所述流式数据处理装置包括业务数据库、内存计算模块Spark和离线计算模块Hive;所述流式数据处理装置包括全局标识模块,用于从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识,通过所述spark完成对每个子系统相关表增加全局标识的任务;所述流式数据处理装置从所述系统内部子系统的业务数据库采集业务数据并在所述离线计算模块hive仓库对应建表,建立原始订单数据表A、B、C,作为后续工作流任务的输入dataset;完成所述数据表A的采集和hive建表后,对所述数据表A增加全局标识字段的spark任务将检测到数据表A已完成采集建表,自动启动对所述数据表A增加全局标识字段的任务;所述完成增加全局标识字段任务后的数据表A将作为下游订单数据表B处理的输入dataset;进一步地,对所述数据表B增加全局标识字段的spark任务作为一个工作流,它依赖所述数据表B和增加全局标识字段后的所述数据表A作为输入dataset,即对所述数据表B增加全局标识字段的spark任务工作流会检测到所述数据表B采集建表完成、并且所述数据表A增加全局标识字段的spark任务也完成后,才会自动启动对所述数据表B增加全局标识字段的任务,并且完成增加全局标识字段任务后的所述数据表B将作为下游订单数据表C处理的输入dataset;进一步地,对数据表C增加全局标识字段的spark任务与前面任务类似,后续流程以此类推。进一步地,所述大数据综合处理系统从所述业务数据库采集业务数据的步骤中,采集的频率按实时性要求来进行调整。进一步地,所述大数据综合处理系统包括资源管理与调度模块Yarn、分布式文件系统HDFS、全量/增量采集模块Sqoop,以及工作流调度模块oozie。进一步地,所述全量/增量采集模块Sqoop从业务数据库采集到数据,存储在所述分布式文件系统HDFS,在此基础上建立了hive仓库;对于采集过来的数据通过所述spark进行整合,统计、分析,数据挖掘;这些采集数据任务,及spark任务,通过所述oozie调度系统统一进行调度执行;由应用层向外提供全面的数据服务。本专利技术的有益效果在于,本专利技术通过对已有业务数据实时添加全局订单标识,不需要现有业务系统做任何改动,将订单流转流程在各子系统间关联起来,实现了互联网信托业务对复杂的订单流程跟踪、回溯的需求。附图说明图1为本专利技术的架构示意图。图2为本专利技术的数据处理流程示意图。具体实施方式以下结合附图和实施例对本专利技术的技术方案作详细说明。如图1和图2所示,一种流式数据处理方法,其特征在于,本文档来自技高网
...

【技术保护点】
1.一种流式数据处理方法,其特征在于,应用于大数据综合处理系统,所述大数据综合处理系统对接多个信托综合账户系统,所述多个信托综合账户系统包括订单系统和多个系统内部子系统;所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive,包括如下步骤:从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识,通过所述spark完成对每个子系统相关表增加全局标识的任务;从所述系统内部子系统的业务数据库采集业务数据并在所述离线计算模块hive仓库对应建表,建立原始订单数据表A、B、C,作为后续工作流任务的输入dataset;完成所述数据表A的采集和hive建表后,对所述数据表A增加全局标识字段的spark任务将检测到数据表A已完成采集建表,自动启动对所述数据表A增加全局标识字段的任务;所述完成增加全局标识字段任务后的数据表A将作为下游订单数据表B处理的输入dataset;进一步地,对所述数据表B增加全局标识字段的spark任务作为一个工作流,它依赖所述数据表B和增加全局标识字段后的所述数据表A作为输入dataset,即对所述数据表B增加全局标识字段的spark任务工作流会检测到所述数据表B采集建表完成、并且所述数据表A增加全局标识字段的spark任务也完成后,才会自动启动对所述数据表B增加全局标识字段的任务,并且完成增加全局标识字段任务后的所述数据表B将作为下游订单数据表C处理的输入dataset;进一步地,对数据表C增加全局标识字段的spark任务与前面任务类似,后续流程以此类推。...

【技术特征摘要】
1.一种流式数据处理方法,其特征在于,应用于大数据综合处理系统,所述大数据综合处理系统对接多个信托综合账户系统,所述多个信托综合账户系统包括订单系统和多个系统内部子系统;所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive,包括如下步骤:从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识,通过所述spark完成对每个子系统相关表增加全局标识的任务;从所述系统内部子系统的业务数据库采集业务数据并在所述离线计算模块hive仓库对应建表,建立原始订单数据表A、B、C,作为后续工作流任务的输入dataset;完成所述数据表A的采集和hive建表后,对所述数据表A增加全局标识字段的spark任务将检测到数据表A已完成采集建表,自动启动对所述数据表A增加全局标识字段的任务;所述完成增加全局标识字段任务后的数据表A将作为下游订单数据表B处理的输入dataset;进一步地,对所述数据表B增加全局标识字段的spark任务作为一个工作流,它依赖所述数据表B和增加全局标识字段后的所述数据表A作为输入dataset,即对所述数据表B增加全局标识字段的spark任务工作流会检测到所述数据表B采集建表完成、并且所述数据表A增加全局标识字段的spark任务也完成后,才会自动启动对所述数据表B增加全局标识字段的任务,并且完成增加全局标识字段任务后的所述数据表B将作为下游订单数据表C处理的输入dataset;进一步地,对数据表C增加全局标识字段的spark任务与前面任务类似,后续流程以此类推。2.根据权利要求1所述的流式数据处理方法,其特征在于,所述大数据综合处理系统从所述业务数据库采集业务数据的步骤中,采集的频率按实时性要求来进行调整。3.根据权利要求1或2所述的流式数据处理方法,其特征在于,所述大数据综合处理系统包括资源管理与调度模块Yarn、分布式文件系统HDFS、全量/增量采集模块Sqoop,以及工作流调度模块oozie。4.根据权利要求3所述的流式数据处理方法,其特征在于,所述全量/增量采集模块Sqoop从业务数据库采集到数据,存储在所述分布式文件系统HDFS,在此基础上建立hive仓库;对于采集过来的数据通过所述spark进行整合,统计、分析,数据挖掘;这些采集数据任务,及spark任务,通过所述oozie调度系统统一进行调度执行;由应用层向外提供全面的数据服务。5.一种流式数据处...

【专利技术属性】
技术研发人员:彭阳张小言
申请(专利权)人:深圳中顺易金融服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1