基于数据仓库进行大数据处理的方法以及装置制造方法及图纸

技术编号:15938743 阅读:24 留言:0更新日期:2017-08-04 21:41
本申请公开了一种基于数据仓库进行大数据处理的方法以及装置。其中方法包括:分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;分别获取第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将第一文件数据和第二文件数据发送至数据仓库中;基于数据仓库对发送至数据仓库中的第一文件数据和第二文件数据进行处理。实现了高效、可靠的对批处理文件中存在的大量无序分布的数据进行核对处理的目的。

Method and device for processing large data based on data warehouse

The present invention discloses a method and a device for processing large data based on data warehouse. The method includes: creating for the first processing system and processing system of the first second tasks and second tasks; the first file data and the file data were obtained first second tasks and second tasks corresponding to the first and second file data and the file data is sent to the data warehouse; data warehouse on the first and second file data file sends the data in the data warehouse processing based on. It achieves the purpose of checking and processing the large amount of unordered distributed data in batch file efficiently and reliably.

【技术实现步骤摘要】
基于数据仓库进行大数据处理的方法以及装置
本申请涉及数据处理
,尤其涉及一种基于数据仓库进行大数据处理的方法以及装置。
技术介绍
目前,在业务系统的业务数据发送处于从老的处理系统迁移到新处理系统的过渡时期时,老处理系统和新处理系统可同时对业务文件进行处理,而由于老处理系统和新处理系统处理的方式和最终生成的业务文件中数据的分布均不相同,但所有的产出文件所包含的总的数据量应该是相同的,所以需要通过业务文件的事后监督任务进行针对新处理系统、老处理系统所产出文件数据的核对,以保证新处理系统和老处理系统所产出数据的一致性。相关技术中,通过以下方式以实现对新处理系统、老处理系统所产出文件数据进行核对:可分别将新处理系统和老处理系统所产出的所有业务文件中的数据进行整合、排序等预处理操作,之后,可通过程序的对比算法对新处理系统和老处理系统中经过预处理操作的数据进行数据对比处理。但是,目前存在的问题是,上述实现方式在对所有业务文件中的数据进行预处理操作之后,需要保证对比算法的性能具有相当程序的高效稳定,而这种要求往往是一件相当棘手的事情,并且真正在线上运行时,很有可能会出现内存溢出的情况,导致整个机器宕机,无法按时完成业务文件的事后监督任务,导致数据处理效率低、可靠性差等。
技术实现思路
本申请的目的旨在至少在一定程度上解决上述的技术问题之一。为此,本申请的第一个目的在于提出一种基于数据仓库进行大数据处理的方法。该方法通过高可用文件导入数据仓库的方式,并依赖数据仓库支持的大数据处理能力,实现了高效、可靠的对批处理文件中存在的大量无序分布的数据进行核对处理的目的。本申请的第二个目的在于提出一种基于数据仓库进行大数据处理的装置。为了实现上述目的,本申请第一方面实施例的基于数据仓库进行大数据处理的方法,包括:分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;分别获取所述第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将所述第一文件数据和第二文件数据发送至所述数据仓库中;基于所述数据仓库对所述发送至所述数据仓库中的第一文件数据和第二文件数据进行处理。本申请实施例的基于数据仓库进行大数据处理的方法,可先分别创建针对第一处理系统和第二处理系统的第一任务和第二任务,然后,开始执行第一任务和第二任务,即分别获取第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将第一文件数据和第二文件数据发送至数据仓库中,最后,基于数据仓库对发送至数据仓库中的第一文件数据和第二文件数据进行对比。即通过采用任务来实现高可用文件内容导入数据仓库的方式,并依赖数据仓库所支持的大数据处理能力的做法,实现了高效、可靠的对批处理文件中存在的大量无序分布的数据进行核对处理的目的,在该大数据对比处理的过程中,只需要保证文件数据导入数据仓库的高效稳定、以及提供给数据仓库简单的进行内容比较的语句,便能够兼顾无序大数据比较的高效性和可靠性。为了实现上述目的,本申请第二方面实施例的基于数据仓库进行大数据处理的装置,包括:任务创建模块,用于分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;任务执行模块,用于分别获取所述第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将所述第一文件数据和第二文件数据发送至所述数据仓库中;数据处理模块,用于基于所述数据仓库对所述发送至所述数据仓库中的第一文件数据和第二文件数据进行处理。本申请实施例的基于数据仓库进行大数据处理的装置,可通过任务创建模块分别创建针对第一处理系统和第二处理系统的第一任务和第二任务,任务执行模块开始执行第一任务和第二任务,即分别获取第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将第一文件数据和第二文件数据发送至数据仓库中,数据处理模块基于数据仓库对发送至数据仓库中的第一文件数据和第二文件数据进行处理。即通过采用高可用文件内容导入数据仓库的方式,并依赖数据仓库所支持的大数据处理能力的做法,实现了高效、可靠的对批处理文件中存在的大量无序分布的数据进行核对处理的目的,在该大数据对比处理的过程中,只需要保证文件数据导入数据仓库的高效稳定、以及提供给数据仓库简单的进行内容比较的语句,便能够兼顾无序大数据比较的高效性和可靠性。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本申请一个实施例的基于数据仓库进行大数据处理的方法的流程图;图2是根据本申请一个实施例的第一处理系统所产出的业务文件结构的示例图;图3是根据本申请一个实施例的任务的状态流转图的示意图;图4是根据本申请一个实施例的第一任务执行的线程池策略的示例图;图5是根据本申请一个实施例的第一数据分片中的数据进行逐条插入的流程图;图6是根据本申请一个实施例的第二数据分片中的数据进行逐条插入的流程图;图7是根据本申请一个实施例的第一任务被执行时第一文件数据进行插入的示例图;图8是根据本申请一个实施例的基于数据仓库进行大数据处理的装置的结构框图;图9是根据本申请一个实施例的任务创建模块的结构框图;图10是根据本申请一个实施例的任务执行模块的结构框图;图11是根据本申请一个实施例的基于数据仓库进行大数据处理的方法应用于业务系统中文件迁移场景的交互示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的基于数据仓库进行大数据处理的方法以及装置。需要说明的是,本申请实施例的基于数据仓库进行大数据处理的方法可应用于业务系统进行文件迁移的场景中,即其应用场景可例如定义如下:业务系统获取第三方系统生成的多个用户业务文件(如10个用户收益文件),之后,以每个大文件为维度创建多个大文件夹(如10个大文件夹),并对每个大文件夹进行处理以生成临时文件,并将临时文件按照分表分库位(如00-99)拆分成最终文件,并将这些最终文件存储到指定路径后,发消息到对应的账务系统,以通知该账务系统解析这些最终文件并最终完成该业务数据的处理。在对业务数据进行发送的过程中,由于业务系统从老系统过渡到新系统期间,新、老处理系统一同进行业务文件的处理,其处理方式和最后生成的数据分布都不尽相同,因此需要对产出的文件进行数据内容的比较核对,以确保新系统处理的可靠性。为此,本申请基于上述应用场景,提出了一种基于数据仓库进行大数据处理的方法。图1是根据本申请一个实施例的基于数据仓库进行大数据处理的方法的流程图。如图1所示,该基于数据仓库进行大数据处理的方法可以包括:S110,分别创建针对第一处理系统和第二处理系统的第一任务和第二任务。作为一种示例,可分别扫描第一处理系统和及第二处理系统生成的第一索引文件和第二索引文件,并分别根据第一索引文件和第二索引文件按照预设规则创建第一任务和第二任务。需要说明的是,在本申请的一个实施例中,在分别扫描第一处理系统和第二处理系统生成的第一索引文件和第二索本文档来自技高网...
基于数据仓库进行大数据处理的方法以及装置

【技术保护点】
一种基于数据仓库进行大数据处理的方法,其特征在于,包括以下步骤:分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;分别获取所述第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将所述第一文件数据和第二文件数据发送至所述数据仓库中;基于所述数据仓库对所述发送至所述数据仓库中的第一文件数据和第二文件数据进行处理。

【技术特征摘要】
1.一种基于数据仓库进行大数据处理的方法,其特征在于,包括以下步骤:分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;分别获取所述第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将所述第一文件数据和第二文件数据发送至所述数据仓库中;基于所述数据仓库对所述发送至所述数据仓库中的第一文件数据和第二文件数据进行处理。2.如权利要求1所述的方法,其特征在于,所述分别创建针对第一处理系统和第二处理系统的第一任务和第二任务,包括:分别扫描第一处理系统和第二处理系统生成的第一索引文件和第二索引文件;分别根据所述第一索引文件和第二索引文件按照预设规则创建所述第一任务和第二任务。3.如权利要求1所述的方法,其特征在于,所述分别将所述第一文件数据和第二文件数据发送至所述数据仓库中,包括:分别将所述第一文件数据和第二文件数据插入至第一中间临时表和第二中间临时表;接收数据仓库的数据传送请求,并根据所述数据传送请求分别将所述第一中间临时表和第二中间临时表中的数据发送至所述数据仓库中。4.如权利要求3所述的方法,其特征在于,所述分别将所述第一文件数据和第二文件数据插入至第一中间临时表和第二中间临时表,包括:创建第一线程,并针对所述第一文件数据,通过所述第一线程中的第一主线程将所述第一文件数据进行整合并拆分以得到多个第一数据分片,并将所述多个第一数据分片分别存入第一队列中,以及分别通过所述第一线程中的多个第一子线程将所述第一队列中的多个第一数据分片批量插入至所述第一中间临时表;创建第二线程,并针对所述第二文件数据,通过所述第二线程中的第二主线程将所述第二文件数据进行整合并拆分以得到多个第二数据分片,并将所述多个第二数据分片分别存入第二队列中,以及分别通过所述第二线程中的多个第二子线程将所述第二队列中的多个第二数据分片批量插入至所述第二中间临时表。5.如权利要求4所述的方法,其特征在于,还包括:当所述第一队列占满时,中断所述第一主线程,并在等待所述第一队列中的第一数据分片被消费掉之后,继续启动所述第一主线程,并通过所述第一主线程将所述第一文件数据中的剩余数据进行整合并拆分以得到多个第一数据分片;当所述第二队列占满时,中断所述第二主线程,并在等待所述第二队列中的第二数据分片被消费掉之后,继续启动所述第二主线程,并通过所述第二主线程将所述第二文件数据中的剩余数据进行整合并拆分以得到多个第二数据分片。6.如权利要求4所述的方法,其特征在于,还包括:当所述多个第一数据分片批量插入失败时,将所述多个第一数据分片中的数据逐条插入至所述第一中间临时表;当所述多个第二数据分片批量插入失败时,将所述多个第二数据分片中的数据逐条插入至所述第二中间临时表。7.如权利要求6所述的方法,其特征在于,所述将所述多个第一数据分片中的数据逐条插入至所述第一中间临时表,包括:确定所述多个第一数据分片中的当前数据的标识信息,并根据所述标识信息判断所述当前数据是否已插入至所述第一中间临时表中;如果所述当前数据已插入至所述第一中间临时表中,则将所述多个第一数据分片中的下一条数据插入至所述第一中间临时表;如果所述当前数据未插入至所述第一中间临时表中,则将所述当前数据插入至所述第一中间临时表;所述将所述多个第二数据分片中的数据逐条插入至所述第二中间临时表,包括:确定所述多个第二数据分片中的当前数据的标识信息,并根据所述标识信息判断所述当前数据是否已插入至所述第二中间临时表中;如果所述当前数据已插入至所述第二中间临时表中,则将所述多个第二数据分片中的下一条数据插入至所述第二中间临时表;如果所述当前数据未插入至所述第二中间临时表中,则将所述多个第二数据分片中的当前数据插入至所述第二中间临时表。8.如权利要求2所述的方法,其特征在于,在分别扫描第一处理系统和第二处理系统生成的第一索引文件和第二索引文件之前,还包括:所述第一处理系统获取第一业务数据,并根据所述第一业务数据生成多个第一大文件,并对所述多个第一大文件进行业务文件处理以生成多个第一文件数据,并将所述多个第一文件数据存储到第一指定路径,以及根据所述第一指定路径生成所述第一索...

【专利技术属性】
技术研发人员:瞿红卫王啸叶恺闫钊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1