一种流式数据处理方法及装置制造方法及图纸

技术编号：20484807 阅读：37 留言：0更新日期：2019-03-02 18:56

本发明专利技术涉及一种流式数据处理方法及装置，应用于大数据综合处理系统，所述大数据综合处理系统对接多个信托综合账户系统，所述多个信托综合账户系统包括订单系统和多个系统内部子系统；所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive，包括如下步骤：从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识，通过所述spark完成对每个子系统相关表增加全局标识的任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种流式数据处理方法及装置
本专利技术涉及大数据处理领域，尤其涉及一种基于大数据处理技术的流式数据处理方法及装置。
技术介绍
现有的流式数据处理应用较为广泛，流式数据处理的特点是持续生成订单数据和消费数据。信账宝账户系统是以信托法理为依据开发的集权益账户、财产账户和资金账户功能为一体的综合金融账户。信账宝系统以信托法理制度为基础，以账户系统为核心。账户系统功能延展性极强，具有极强的金融业务牌照属性。信托账户是权益账户和资金账户功能为一体的综合金融账户，能够全面对个人/法人“存款、投资、保险、消费、贷款”各类金融资产和负债进行管理的信托综合账户系统。由于信托业务本身的特点，信账宝账户系统的账户类型较多，且账户之间关联关系复杂多样；系统内订单流转流程复杂，由于与外部系统的对接导致订单完成存在时延不确定的问题，即订单完成的时间不确定；系统内各子系统之间没有统一的订单编号；这些客观原因导致在系统内追踪订单较困难，且整个系统较难做到将某个业务流程的完整订单流程串联起来。如果通过对业务系统进行修改来解决上述问题，一方面业务逻辑流程需要较大改动，表结构及所有涉及的接口都需要修改；另一方面，对于大量历史数据的处理也需要慎重考虑。因此业务系统改动代价比较大。spark是一个快速且通用的集群计算系统。它提供了Java、Scala、Python和R的高级api，以及支持一般执行图的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的SparkSQL、用于机器学习的MLlib、用于图形处理的GraphX和Spark流。oozie是一个管理Hadoop作业的工作流...

【技术保护点】
1.一种流式数据处理方法，其特征在于，应用于大数据综合处理系统，所述大数据综合处理系统对接多个信托综合账户系统，所述多个信托综合账户系统包括订单系统和多个系统内部子系统；所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive，包括如下步骤：从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识，通过所述spark完成对每个子系统相关表增加全局标识的任务；从所述系统内部子系统的业务数据库采集业务数据并在所述离线计算模块hive仓库对应建表，建立原始订单数据表A、B、C，作为后续工作流任务的输入dataset；完成所述数据表A的采集和hive建表后，对所述数据表A增加全局标识字段的spark任务将检测到数据表A已完成采集建表，自动启动对所述数据表A增加全局标识字段的任务；所述完成增加全局标识字段任务后的数据表A将作为下游订单数据表B处理的输入dataset；进一步地，对所述数据表B增加全局标识字段的spark任务作为一个工作流，它依赖所述数据表B和增加全局标识字段后的所述数据表A作为输入dataset，即对所述数据表B增加全局标识字段的spark任务工作流...

【技术特征摘要】
1.一种流式数据处理方法，其特征在于，应用于大数据综合处理系统，所述大数据综合处理系统对接多个信托综合账户系统，所述多个信托综合账户系统包括订单系统和多个系统内部子系统；所述流式数据处理方法包括业务数据库、内存计算模块Spark和离线计算模块Hive，包括如下步骤：从所述多个系统内部子系统中选定源头子系统的订单号为系统全局标识，通过所述spark完成对每个子系统相关表增加全局标识的任务；从所述系统内部子系统的业务数据库采集业务数据并在所述离线计算模块hive仓库对应建表，建立原始订单数据表A、B、C，作为后续工作流任务的输入dataset；完成所述数据表A的采集和hive建表后，对所述数据表A增加全局标识字段的spark任务将检测到数据表A已完成采集建表，自动启动对所述数据表A增加全局标识字段的任务；所述完成增加全局标识字段任务后的数据表A将作为下游订单数据表B处理的输入dataset；进一步地，对所述数据表B增加全局标识字段的spark任务作为一个工作流，它依赖所述数据表B和增加全局标识字段后的所述数据表A作为输入dataset，即对所述数据表B增加全局标识字段的spark任务工作流会检测到所述数据表B采集建表完成、并且所述数据表A增加全局标识字段的spark任务也完成后，才会自动启动对所述数据表B增加全局标识字段的任务，并且完成增加全局标识字段任务后的所述数据表B将作为下游订单数据表C处理的输入dataset；进一步地，对数据表C增加全局标识字段的spark任务与前面任务类似，后续流程以此类推。2.根据权利要求1所述的流式数据处理方法，其特征在于，所述大数据综合处理系统从所述业务数据库采集业务数据的步骤中，采集的频率按实时性要求来进行调整。3.根据权利要求1或2所述的流式数据处理方法，其特征在于，所述大数据综合处理系统包括资源管理与调度模块Yarn、分布式文件系统HDFS、全量/增量采集模块Sqoop，以及工作流调度模块oozie。4.根据权利要求3所述的流式数据处理方法，其特征在于，所述全量/增量采集模块Sqoop从业务数据库采集到数据，存储在所述分布式文件系统HDFS，在此基础上建立hive仓库；对于采集过来的数据通过所述spark进行整合，统计、分析，数据挖掘；这些采集数据任务，及spark任务，通过所述oozie调度系统统一进行调度执行；由应用层向外提供全面的数据服务。5.一种流式数据处...

【专利技术属性】
技术研发人员：彭阳，张小言，
申请(专利权)人：深圳中顺易金融服务有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人