【技术实现步骤摘要】
一种数据处理方法、装置、存储介质和设备
本申请涉及数据处理领域,尤其涉及一种数据处理方法、装置、存储介质和设备。
技术介绍
对于大型企业而言,常态业务监测工作主要包括数据获取与下发、数据归集与核查、数据处理与校验、以及监测报告编制四个环节。在数据获取与下发环节、以及数据处理与校验环节中,大型企业名下的各个子公司会从业务后台获取业务监测数据,并将业务监测数据与大型企业总部下发的系统数据进行整合,生成数据文件,再将数据文件发送至预设的运营监测工作台(具体为服务器),由运营监测工作台将数据文件上传至大型企业总部。最后,再由大型企业总部负责数据归集与核查环节、以及监测报告编制环节。如何提高数据归集与核查环节的处理效率,成为大型企业目前亟待解决的问题。
技术实现思路
申请人发现:在数据归集过程中,由于各个子公司上传的数据文件的格式,主要以表格文件(例如excel文件)和压缩文件(例如压缩包)为主,需要人为进行大量的干预操作(例如对压缩文件进行解压、对表格文件进行分类等),致使效率低下。此外,在数据核查过程中 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取各个数据文件;所述数据文件包括第一表格文件和压缩文件;所述第一表格文件具有业务编号;/n对所述压缩文件进行解压,得到第二表格文件;所述第二表格文件具有业务编号;/n基于所述业务编号与主题文件夹之间的预设对应关系,将所述第一表格文件和所述第二表格文件存放在对应的所述主题文件夹中;/n将所述主题文件夹导入kettle工具中,并触发所述kettle工具执行数据抽取任务;其中,所述数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段,并对所述输入字段进行预处理,将预处理后的所述输入字段导入到预设的数据表中;所述目标表格 ...
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取各个数据文件;所述数据文件包括第一表格文件和压缩文件;所述第一表格文件具有业务编号;
对所述压缩文件进行解压,得到第二表格文件;所述第二表格文件具有业务编号;
基于所述业务编号与主题文件夹之间的预设对应关系,将所述第一表格文件和所述第二表格文件存放在对应的所述主题文件夹中;
将所述主题文件夹导入kettle工具中,并触发所述kettle工具执行数据抽取任务;其中,所述数据抽取任务用于依据预设的文件路径从目标表格文件中抽取预设的输入字段,并对所述输入字段进行预处理,将预处理后的所述输入字段导入到预设的数据表中;所述目标表格文件包括所述第一表格文件和所述第二表格文件。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述kettle工具中预先配置所述文件路径、所述输入字段、以及所述数据表。
3.根据权利要求1所述的方法,其特征在于,所述数据抽取任务包括第一预处理作业,所述第一预处理作业用于按照预设第一规则对所述输入字段进行预处理;
所述按照预设第一规则对所述输入字段进行预处理包括:
以预设的参考字段为基准要求,对所述输入字段进行字符串修正,得到符合所述基准要求的字段;其中,所述字符串修正的手段包括字符替换、空格删除、以及字符删除中的至少一项;
将符合所述基准要求的所述字段作为预处理后的所述输入字段。
4.根据权利要求1所述的方法,其特征在于,所述数据抽取任务包括第二预处理作业,所述第二预处理作业用于按照预设第二规则对所述输入字段进行预处理;
所述按照预设第二规则对所述输入字段进行预处理包括:
对所述输入字段进行识别,确定所述输入字段所描述的对象;
基于所述对象和预设的表述方式之间的对应关系,利用对应的所述表述方式,对所述输入字段进行转换,得到新字段;
将所述新字段作为预处理后的所述输入字段。
5.根据权利要求1所述的方法,其特征在于,所述数据抽取任务包括第三预处理作业,所述第三预处理作业用于按照预设第三规则对所...
【专利技术属性】
技术研发人员:王越越,郭阳,付鑫,朱静,赵振东,孙盼,张凌恺,
申请(专利权)人:北京中电普华信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。