The present invention discloses a method and a device for processing large data based on data warehouse. The method includes: creating for the first processing system and processing system of the first second tasks and second tasks; the first file data and the file data were obtained first second tasks and second tasks corresponding to the first and second file data and the file data is sent to the data warehouse; data warehouse on the first and second file data file sends the data in the data warehouse processing based on. It achieves the purpose of checking and processing the large amount of unordered distributed data in batch file efficiently and reliably.
【技术实现步骤摘要】
基于数据仓库进行大数据处理的方法以及装置
本申请涉及数据处理
,尤其涉及一种基于数据仓库进行大数据处理的方法以及装置。
技术介绍
目前,在业务系统的业务数据发送处于从老的处理系统迁移到新处理系统的过渡时期时,老处理系统和新处理系统可同时对业务文件进行处理,而由于老处理系统和新处理系统处理的方式和最终生成的业务文件中数据的分布均不相同,但所有的产出文件所包含的总的数据量应该是相同的,所以需要通过业务文件的事后监督任务进行针对新处理系统、老处理系统所产出文件数据的核对,以保证新处理系统和老处理系统所产出数据的一致性。相关技术中,通过以下方式以实现对新处理系统、老处理系统所产出文件数据进行核对:可分别将新处理系统和老处理系统所产出的所有业务文件中的数据进行整合、排序等预处理操作,之后,可通过程序的对比算法对新处理系统和老处理系统中经过预处理操作的数据进行数据对比处理。但是,目前存在的问题是,上述实现方式在对所有业务文件中的数据进行预处理操作之后,需要保证对比算法的性能具有相当程序的高效稳定,而这种要求往往是一件相当棘手的事情,并且真正在线上运行时,很有可能会出现内存溢出的情况,导致整个机器宕机,无法按时完成业务文件的事后监督任务,导致数据处理效率低、可靠性差等。
技术实现思路
本申请的目的旨在至少在一定程度上解决上述的技术问题之一。为此,本申请的第一个目的在于提出一种基于数据仓库进行大数据处理的方法。该方法通过高可用文件导入数据仓库的方式,并依赖数据仓库支持的大数据处理能力,实现了高效、可靠的对批处理文件中存在的大量无序分布的数据进行核对处理的目的。本申请的第 ...
【技术保护点】
一种基于数据仓库进行大数据处理的方法,其特征在于,包括以下步骤:分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;分别获取所述第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将所述第一文件数据和第二文件数据发送至所述数据仓库中;基于所述数据仓库对所述发送至所述数据仓库中的第一文件数据和第二文件数据进行处理。
【技术特征摘要】
1.一种基于数据仓库进行大数据处理的方法,其特征在于,包括以下步骤:分别创建针对第一处理系统和第二处理系统的第一任务和第二任务;分别获取所述第一任务和第二任务对应的第一文件数据和第二文件数据,并分别将所述第一文件数据和第二文件数据发送至所述数据仓库中;基于所述数据仓库对所述发送至所述数据仓库中的第一文件数据和第二文件数据进行处理。2.如权利要求1所述的方法,其特征在于,所述分别创建针对第一处理系统和第二处理系统的第一任务和第二任务,包括:分别扫描第一处理系统和第二处理系统生成的第一索引文件和第二索引文件;分别根据所述第一索引文件和第二索引文件按照预设规则创建所述第一任务和第二任务。3.如权利要求1所述的方法,其特征在于,所述分别将所述第一文件数据和第二文件数据发送至所述数据仓库中,包括:分别将所述第一文件数据和第二文件数据插入至第一中间临时表和第二中间临时表;接收数据仓库的数据传送请求,并根据所述数据传送请求分别将所述第一中间临时表和第二中间临时表中的数据发送至所述数据仓库中。4.如权利要求3所述的方法,其特征在于,所述分别将所述第一文件数据和第二文件数据插入至第一中间临时表和第二中间临时表,包括:创建第一线程,并针对所述第一文件数据,通过所述第一线程中的第一主线程将所述第一文件数据进行整合并拆分以得到多个第一数据分片,并将所述多个第一数据分片分别存入第一队列中,以及分别通过所述第一线程中的多个第一子线程将所述第一队列中的多个第一数据分片批量插入至所述第一中间临时表;创建第二线程,并针对所述第二文件数据,通过所述第二线程中的第二主线程将所述第二文件数据进行整合并拆分以得到多个第二数据分片,并将所述多个第二数据分片分别存入第二队列中,以及分别通过所述第二线程中的多个第二子线程将所述第二队列中的多个第二数据分片批量插入至所述第二中间临时表。5.如权利要求4所述的方法,其特征在于,还包括:当所述第一队列占满时,中断所述第一主线程,并在等待所述第一队列中的第一数据分片被消费掉之后,继续启动所述第一主线程,并通过所述第一主线程将所述第一文件数据中的剩余数据进行整合并拆分以得到多个第一数据分片;当所述第二队列占满时,中断所述第二主线程,并在等待所述第二队列中的第二数据分片被消费掉之后,继续启动所述第二主线程,并通过所述第二主线程将所述第二文件数据中的剩余数据进行整合并拆分以得到多个第二数据分片。6.如权利要求4所述的方法,其特征在于,还包括:当所述多个第一数据分片批量插入失败时,将所述多个第一数据分片中的数据逐条插入至所述第一中间临时表;当所述多个第二数据分片批量插入失败时,将所述多个第二数据分片中的数据逐条插入至所述第二中间临时表。7.如权利要求6所述的方法,其特征在于,所述将所述多个第一数据分片中的数据逐条插入至所述第一中间临时表,包括:确定所述多个第一数据分片中的当前数据的标识信息,并根据所述标识信息判断所述当前数据是否已插入至所述第一中间临时表中;如果所述当前数据已插入至所述第一中间临时表中,则将所述多个第一数据分片中的下一条数据插入至所述第一中间临时表;如果所述当前数据未插入至所述第一中间临时表中,则将所述当前数据插入至所述第一中间临时表;所述将所述多个第二数据分片中的数据逐条插入至所述第二中间临时表,包括:确定所述多个第二数据分片中的当前数据的标识信息,并根据所述标识信息判断所述当前数据是否已插入至所述第二中间临时表中;如果所述当前数据已插入至所述第二中间临时表中,则将所述多个第二数据分片中的下一条数据插入至所述第二中间临时表;如果所述当前数据未插入至所述第二中间临时表中,则将所述多个第二数据分片中的当前数据插入至所述第二中间临时表。8.如权利要求2所述的方法,其特征在于,在分别扫描第一处理系统和第二处理系统生成的第一索引文件和第二索引文件之前,还包括:所述第一处理系统获取第一业务数据,并根据所述第一业务数据生成多个第一大文件,并对所述多个第一大文件进行业务文件处理以生成多个第一文件数据,并将所述多个第一文件数据存储到第一指定路径,以及根据所述第一指定路径生成所述第一索...
【专利技术属性】
技术研发人员:瞿红卫,王啸,叶恺,闫钊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。