【技术实现步骤摘要】
数据导入方法、装置、存储介质及电子设备
[0001]本申请涉及大数据领域,具体而言,涉及一种数据导入方法、装置、存储介质及电子设备。
技术介绍
[0002]随着大数据的快速发展,数据信息的存储不仅限于单一的单机关系型数据库,越来越多的企业开始使用分布式数据库例如Hadoop以及大数据技术(Hive)来处理海量数据,相关技术中,通过编写HQL(Hive结构化查询语言),对数据库中的数据进行操作。基于Hadoop大数据平台的Hive批量加工服务通过批量作业调度系统对数据进行提取、转化、加载。用户通过编写HQL作业,并配置作业之间的依赖关系,通过作业调度系统批量完成对Hadoop数据的加工。随着业务数据的不断拓展,依赖于外部系统的数据越来越多,此时就需要手工将外部数据文件导入Hadoop大数据平台的Hive表中,通过载入方法将单个数据文件加载到Hive表中,以保证可以通过批量作业调度系统对数据进行加工。然而,相关技术中的数据文件载入方法自动化程度低,手工介入出错率高,且单个数据文件串行加载数据的加工效率低。
[0003]针 ...
【技术保护点】
【技术特征摘要】
1.一种数据导入方法,其特征在于,包括:确定预设文件目录中的多个待导入文件,对每个待导入文件进行校验;在所述待导入文件校验通过的情况下,确定所述待导入文件的文件类型,并基于所述文件类型确定所述待导入文件需要导入的目标数据表;确定所述目标数据表的表类型,基于所述表类型创建与所述表类型对应的数据表写入源,通过所述数据表写入源将所述待导入文件中的数据写入所述目标数据表;在所有待导入文件中的数据已全部写入目标数据表的情况下,发出第一提示信息,其中,所述第一提示信息用于提示数据导入成功。2.根据权利要求1所述的方法,其特征在于,确定所述待导入文件的文件类型,并基于所述文件类型确定所述待导入文件需要导入的目标数据表包括:获取数据仓库的用户信息,基于所述用户信息登录所述数据仓库;根据所述文件类型从所述数据仓库的多个数据表中确定所述目标数据表,其中,每个数据表存储一种文件类型的数据。3.根据权利要求2所述的方法,其特征在于,在基于所述表类型创建与所述表类型对应的数据表写入源之前,所述方法还包括:获取所述目标数据表的表信息,基于所述表信息从所述数据仓库中删除所述目标数据表的历史分区,并构建所述目标数据表的新分区;在所述新分区创建数据文件读取源,基于所述数据文件读取源读取所述待导入文件,并执行基于所述表类型创建与所述表类型对应的数据表写入源的步骤。4.根据权利要求1所述的方法,其特征在于,通过所述数据表写入源将所述待导入文件中的数据写入所述目标数据表包括:确定数据写入方式,其中,所述写入方式包括定长写入和分隔符写入;在所述数据写入方式为所述定长写入的情况下,按照预设定长设置分隔符,并将所述数据写入方式转化为所述分隔符写入;在所述数据写入方式为所述分隔符写入的情况下,基于分隔符将所述待导入文件中的数据进行分行;将所述待导入文件中的数据按行写入所述目标数据表。5.根据权利要求1所述的方法,其特征在于,确定预设文件目录中的多个待导入文件包括:获取每个待导入文件的文件信息,从所述文件信息中提取所述待导入文件的文件名;扫描所述预设文件目录,判断所述预设文件目录中是否包含所述文件名;在所述文件目录中包含所述文件名的情况下,确定所述预设文件目录中存在所述待导入文件,执行对所述待导入文件进行校验的步骤;在所述文件目录中未包含所述文件名的情况下,发出第二提示信息,其中,所述第二提示信息用于提示所述待导入文件不存在。6.根据权利要求1所述的方法,其特征在于,对每个待导入文件进行校验包括:从所述待导入文件...
【专利技术属性】
技术研发人员:宋哲,张志海,杨登科,丁鑫煜,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。