数据装载方法及装置制造方法及图纸

技术编号:35273242 阅读:36 留言:0更新日期:2022-10-19 10:48
本发明专利技术公开了一种数据装载方法及装置,涉及大数据,其中该方法包括:当扫描到需进行数据装载的数据文件时,确定设备上并发运行的进程数是否小于预设进程数目,其中,所述预设进程数目是根据设备性能预先确定的;当小于所述预设进程数目时,调动进程对所述数据文件进行第一次数据装载。本发明专利技术可以使得装载效率达到最优状态,大大减少了装载的时间;不仅解决了一次装载方案异常出现的问题,也提高了处理的效率,可以更快的将数据进行处理。可以更快的将数据进行处理。可以更快的将数据进行处理。

【技术实现步骤摘要】
数据装载方法及装置


[0001]本专利技术涉及大数据
,尤其涉及数据装载方法及装置。

技术介绍

[0002]ETL(Extract、Transform、Load,抽取、转换、装载)。ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节,一般会占到整个数据仓库项目工作量的一半以上。
[0003]抽取:从操作型数据源获取数据。
[0004]转换:转换数据,使之转变为适用于查询和分析的形式和结构。
[0005]装载:将转换后的数据导入到最终的目标数据仓库。
[0006]建立一个数据仓库,就是要把来自于多个异构的源系统的数据集成在一起,放置于一个集中的位置用于数据分析。如果一开始这些源系统数据就是兼容的当然最好,但情况往往不是这样。ETL系统的工作就是要把异构的数据转换成同构的。如果没有ETL,不可能对异构的数据进行程序化的分析。
[0007]数据装载是指将转换好的数据保存到数据仓库中去。一般情况下,数据装载应该在系统完成了更新之后进行。
[0008]基于分布式架构下的数据装载,针对提供的表明(表格明细)、会计日期、增全量标识、分片号信息等,将带有这些信息的数据文件装载到对应的数据库表中。
[0009]现有技术的不足在于,数据装载效率不高。

技术实现思路

[0010]本专利技术实施例提供一种数据装载方法,用以提高数据装载效率,该方法包括:
[0011]当扫描到需进行数据装载的数据文件时,确定设备上并发运行的进程数是否小于预设进程数目,其中,所述预设进程数目是根据设备性能预先确定的;
[0012]当小于所述预设进程数目时,调动进程对所述数据文件进行第一次数据装载。
[0013]本专利技术实施例还提供一种数据装载装置,用以提高数据装载效率,该装置包括:
[0014]进程模块,用于当扫描到需进行数据装载的数据文件时,确定设备上并发运行的进程数是否小于预设进程数目,其中,所述预设进程数目是根据设备性能预先确定的;
[0015]第一装载模块,用于当小于所述预设进程数目时,调动进程对所述数据文件进行第一次数据装载。
[0016]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据装载方法。
[0017]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据装载方法。
[0018]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述数据装载方法。
[0019]本专利技术实施例中,与现有技术中未针对分布式架构的特点,仅仅只是将带有信息的数据文件装载到对应的数据库表中的技术方案相比,由于考虑到分布式架构下进程并发的特点,在确定设备上并发运行的进程数是否小于预设进程数目时,也即还有设备资源时,即开始进行数据装载;针对了分布式架构的特点,利用设备本身性能不仅仅能处理单数据文件的装载的能力,针对还存在着资源浪费的问题,采用多进程的方案,从而可以使得装载效率达到最优状态,大大减少了装载的时间;
[0020]进一步的,由于在确定第一次数据装载异常后,开始第二次数据装载,也即,针对异常数据的处理,当数据装载出现异常时,第一时间进行二次数据装载,将异常数据进行逐一装载,可以说明不是因为第一次数据装载而导致的数据装载异常,因而基本可判断数据为脏数据,可以在后续的工作中按脏数据进行处理,这也是在处理异常数据时,最快的处理方案;因而不仅解决了一次装载方案异常出现的问题,也提高了处理的效率,可以更快的将数据进行处理。
附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0022]图1为本专利技术实施例中数据装载方法实施流程示意图;
[0023]图2为本专利技术实施例中数据装载架构示意图;
[0024]图3为本专利技术实施例中多进程流程示意图;
[0025]图4为本专利技术实施例中二次数据装载流程示意图;
[0026]图5为本专利技术实施例中数据装载装置结构示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0028]专利技术人在专利技术过程中注意到:
[0029]基于分布式架构下的数据装载,针对提供的表明、会计日期、增全量标识、分片号信息等,将带有这些信息的数据文件装载到对应的数据库表中,目前的数据装载没有办法实现高并发,而且在数据装载出现异常时无法更快的对数据进行处理或者判断。
[0030]而数据文件逐一装载到表中,不仅资源没有实现充分利用,还耽误了装载效率,所以通过控制并发度,可以实现数据文件装载效率最佳,每当有数据文件被扫描发现,若计算线程数没有达到给出的最佳并发度,就可以直接进行装载;
[0031]当第一次数据装载完成,通过进行比对数据装载数和数据文件记录数以及日志的异常记录,判断装载是否成功,若失败则进行二次数据装载,二次数据装载不使用第一次的load data装载方法,将一条条数据进行逐一装载。
[0032]该方案主要解决了数据装载慢,以及数据装载异常的问题,可以充分加快数据装
载效率,也可以通过两种方案进行数据装载实现了数据二次数据装载,避免一次装载方案异常出现的问题。
[0033]基于此,本专利技术实施例中提供了一种分布式架构下的数据装载方案,通过控制并发度,达到数据文件装载效率最佳。进一步的,为解决当第一种数据装载异常的问题,可以通过python实现将各个数据进行逐一装载,当正常装载出现数据装载数和数据记录数不相等或日志中出现异常记录,通过二次数据装载可以判断出数据是否为脏数据,避免了一次数据装载方案的异常而导致数据无法装载。
[0034]下面结合具体实施例进行说明。
[0035]图1为数据装载方法实施流程示意图,如图1所示,可以包括:
[0036]步骤101、当扫描到需进行数据装载的数据文件时,确定设备上并发运行的进程数是否小于预设进程数目,其中,所述预设进程数目是根据设备性能预先确定的;
[0037]步骤102、当小于所述预设进程数目时,调动进程对所述数据文件进行第一次数据装载。
[0038]实施中,进一步包括:
[0039]步骤103、在确定第一次数据装载异常后,进行第二次数据装载,在所述第二次数据装载中将一条条第一次数据装载异常的数据进行逐一装载。
[0040]实施时,多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据装载方法,其特征在于,包括:当扫描到需进行数据装载的数据文件时,确定设备上并发运行的进程数是否小于预设进程数目,其中,所述预设进程数目是根据设备性能预先确定的;当小于所述预设进程数目时,调动进程对所述数据文件进行第一次数据装载。2.如权利要求1所述的方法,其特征在于,所述预设进程数目是根据设备性能预先通过测试的方式确定的,所述预设进程数目下设备数据装载效率最优。3.如权利要求1或2所述的方法,其特征在于,进一步包括:在确定第一次数据装载异常后,进行第二次数据装载,在所述第二次数据装载中将一条一条第一次数据装载异常的数据进行逐一装载。4.如权利要求3所述的方法,其特征在于,通过以下方式之一或者其组合确定第一次数据装载异常:比对数据装载数和数据文件记录数,比对预设加载的数据条数和实际加载的数据条数,查看日志的异常记录,查看数据装载异常记录。5.如权利要求3所述的方法,其特征在于,进一步包括:在确定第二次数据装载异常后,将加载异常的数据按脏数据进行处理。6.一种数据装载装置,其特征在于,包括:进程模块,用于当扫描到需进行数据装载的数据文件时,确定设备上并发运行的进程数是否小于预设进程数目,其中,所述预设进程数目是根据设备性能预先确定的;第一装载模块,用于当小于所述预设进程数目时,调动进程对所述数据文件进行第一次数据装载。7...

【专利技术属性】
技术研发人员:王见广
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1