【技术实现步骤摘要】
一种数据文件处理方法、装置及电子设备
[0001]本公开涉及大数据
,具体涉及大数据文件的处理,更具体地涉及一种数据文件处理方法、装置、设备、介质和程序产品。
技术介绍
[0002]在现有技术中,对数据文件处理尤其是涉及大数据量文件导入到系统或服务器的处理,存在诸如内存消耗高、系统频繁回收垃圾等问题,例如将大数据量的Excel文件并发导入到系统中时,会产生内存溢出问题,影响系统性能,从而导致导入时间较长,无法满足用户快速导入的需求。
技术实现思路
[0003]鉴于上述问题,本公开提供了提高数据文件导入效率的数据文件处理方法、装置、设备、介质和程序产品。
[0004]根据本公开的第一个方面,提供了一种数据文件处理方法,包括:
[0005]响应于导入请求,将与导入请求对应的数据文件进行分布式存储;
[0006]根据数据文件的属性信息,利用调度服务器对数据文件进行分片定义;
[0007]根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器对数据文件进行分片处理,获得分片 ...
【技术保护点】
【技术特征摘要】
1.一种数据文件处理方法,包括:响应于导入请求,将与所述导入请求对应的数据文件进行分布式存储;根据所述数据文件的属性信息,利用调度服务器对所述数据文件进行分片定义;根据所述分片定义和配置校验规则,利用分布式协同服务调度处理服务器对所述数据文件进行分片处理,获得分片处理结果;利用所述调度服务器对所述分片处理结果进行验证,根据验证结果,利用所述分布式协同服务调度处理服务器对所述数据文件进行分片导入处理。2.根据权利要求1所述的方法,其中,所述响应于导入请求,将与所述导入请求对应的数据文件进行分布式存储包括:获取所述数据文件的表头配置信息;根据所述表头配置信息,利用应用服务器对所述数据文件进行表头校验,并将表头校验通过后的数据文件存储在分布式文件系统中;利用应用服务器将所述导入请求登记到任务队列中,并将登记处理结果反馈给用户终端。3.根据权利要求2所述的方法,还包括:根据所述任务队列,利用调度服务器获取处理任务和用户配置需求;根据所述处理任务和用户配置需求,利用所述分布式协同服务调度处理服务器对原始表进行初始化处理,其中,所述原始表用于存储待导入的数据文件。4.根据权利要求1所述的方法,其中,所述配置校验规则包括:非空校验、数据长度校验、数据类型校验、数据字典校验、字段间规则校验、行间规则校验。5.根据权利要求1所述的方法,其中,所述分片定义包括:根据所述数据文件的属性信息,选定所述数据文件的至少一列作为分片列;根据所述分片列的数据值域,对所述数据文件进行平均分片,并获取每个分片结果所包括的数据量;当所述数据量小于数据量阈值时,完成分片定义。6.根据权利要求5所述的方法,还包括:当所述数据量大于所述数据量阈值时,利用所述调度服务执行再分片定义,直到分片结果所包...
【专利技术属性】
技术研发人员:谭均昌,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。