【技术实现步骤摘要】
一种数据预处理方法及装置
本申请涉及数据处理
,更具体地,尤其涉及一种数据预处理方法及装置。
技术介绍
在银行处理系统中,在获取外系统提供的源数据时,存在一些源数据是不符合系统要求的,例如:主键数值缺失、非主键数值缺失、数据格式不符合要求、数据重复等多种问题。而后续用于数据加工的车间模型已经标准化了,不统一的数据格式将对后续车间模型的加工和处理带来影响,同时,数值缺失、脏数据等也将影响后续数据的入库。若直接使用这些源数据,在后续数据加工及入库的过程中往往会出现报错,且即使当时未出现报错,也可能在未来的使用中存在隐患,因此,为了方便后续对数据进行处理和加工,需要预先对源数据进行预处理。然而,外系统的源数据以.gz数据文件传来,当前在数据预处理时,需要先将数据文件进行解压,再对数据进行清洗加工,在后期外系统传来的数据量较大时,预处理速度将大大拖慢数据整体的处理和加工速度,并且将长时间占用数据缓存,不利于数据缓存的有效利用,而当多个外系统同时传来待预处理的源数据时,不仅会对服务器造成过大压力,也将大大影响数据后续加工 ...
【技术保护点】
1.一种数据预处理方法,其特征在于,包括:/n对源数据文件进行解压,得到待处理数据文件,并统计所述待处理数据文件中的数据量大小以及数据行的行数和数据列的列数;/n根据所述数据行的行数和所述数据列的列数从数据预处理库中匹配对应的线程数量,所述数据预处理库中存储有数据行的行数、数据列的列数与线程数量的对应关系;/n按列将所述待处理数据文件划分为所述线程数量对应的份数,并使用Pandas包里的工具将每列数据创建为series对象进行存储;/n根据所述数据行或所述数据列的数据元素业务含义从预处理规则集合中确定对应的预处理规则,所述预处理规则集合中存储有数据元素业务含义与预处理规则的 ...
【技术特征摘要】
1.一种数据预处理方法,其特征在于,包括:
对源数据文件进行解压,得到待处理数据文件,并统计所述待处理数据文件中的数据量大小以及数据行的行数和数据列的列数;
根据所述数据行的行数和所述数据列的列数从数据预处理库中匹配对应的线程数量,所述数据预处理库中存储有数据行的行数、数据列的列数与线程数量的对应关系;
按列将所述待处理数据文件划分为所述线程数量对应的份数,并使用Pandas包里的工具将每列数据创建为series对象进行存储;
根据所述数据行或所述数据列的数据元素业务含义从预处理规则集合中确定对应的预处理规则,所述预处理规则集合中存储有数据元素业务含义与预处理规则的对应关系;
使用对应的所述预处理规则,按列对所述待处理数据文件中的每列数据进行预处理。
2.根据权利要求1所述的方法,其特征在于,所述对源数据文件进行解压,得到待处理数据文件,并统计所述待处理数据文件中的数据量大小以及数据行的行数和数据列的列数,具体为:
对gz压缩包格式的所述源数据文件进行解压,得到待处理数据文件;
使用Pandas将所述待处理数据文件读取到数据缓存中;
根据所述待处理数据文件的读取情况统计所述待处理数据文件中的所述数据量大小以及所述数据行的行数和所述数据列的列数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据行的行数和所述数据列的列数从数据预处理库中匹配对应的线程数量,所述数据预处理库中存储有数据行的行数、数据列的列数与线程数量的对应关系,具体为:
获取所述待处理数据文件的所述数据量大小、所述数据行的行数和所述数据列的列数;
将所述数据行的行数和所述数据列的列数与对应的预设值进行对比,从所述数据预处理库中匹配对应的所述线程数量,所述数据预处理库中存储有数据行的行数、数据列的列数与线程数量的对应关系。
4.根据权利要求1所述的方法,其特征在于,针对每一列数据的预处理,具体为:
提取所述待处理数据文件中当前列数据;
根据所述数据行或所述数据列的数据元素业务含义判断所述预处理规则集合中是否存在所述待处理数据文件对应的数据元素业务含义;
若是,则使用所述数据元素业务含义确定对应的预处理规则,并按照所述预处理规则对所述待处理数据文件中当前列数据进行预处理;
若否,则为所述待处理数据文件中当前列数据配置对应的预处理规则和数据元素业务含义,得到新的预处理规则,使用所述新的预处理规则对所述待处理数据文件中当前列数据进行预处理,并将所述新的预处理规则以及对应的数据元素业务含义存储在所述预处理规则集合中。...
【专利技术属性】
技术研发人员:徐薇,孟欣,程呈,李志强,高雨晗,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。