【技术实现步骤摘要】
一种数据备份方法、装置和设备
[0001]本说明书实施例涉及大数据
,特别涉及一种数据备份方法、装置和设备。
技术介绍
[0002]大数据技术正在蓬勃发展,越来越多企业采用建设大数据服务平台以及通过数据入湖的方式对业务数据进行统一管理和存储。基于Hadoop技术的数据湖保留了数据的原始信息,对数据本身的标准性要求不高,但不同应用对数据的需求不一,存在着从数据湖中导出数据文件进行后续加工处理的需求。
[0003]现有技术中,数据库通常默认不处理原始数据,但是在实际应用中通常会遇到存储在数据湖的原始数据含有特殊字符(如换行符和终止符),未处理特殊字符直接导出数据文件以进行备份,在后续将文件导入到其他数据库系统时会出现特殊字符所在数据行的字段位置解析错乱的情况,从而产生负面影响。由此可见,采用现有技术中的技术方案无法确保准确地导出数据湖中的原始数据以进行备份。
[0004]针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本说明书实施例提供了一种数据备份方法、装置和设备,以 ...
【技术保护点】
【技术特征摘要】
1.一种数据备份方法,其特征在于,包括:接收目标用户提交的备份请求;其中,所述备份请求中包含待备份数据的属性信息、筛选字段列表以及过滤条件;基于所述筛选字段列表、过滤条件和所述待备份数据的属性信息生成建表的结构化查询语句;利用所述建表的结构化查询语句将所述待备份数据抽取至生成的中间表中;根据所述过滤条件对所述中间表中的数据进行预处理,并逐行将预处理后的数据传输至目标数据库中;其中,所述预处理包括:特殊字符过滤。2.根据权利要求1所述的方法,其特征在于,在基于所述筛选字段列表、过滤条件和所述待备份数据的属性信息生成建表的结构化查询语句之前,还包括:解析所述备份请求,确定是否需要保留字段内的换行符;在确定需要保留的情况下,基于所述待备份数据的属性信息确定所述待备份数据的文件格式是否为TXT格式;在确定所述待备份数据的文件格式为TXT格式的情况下,向所述目标用户反馈异常提示信息。3.根据权利要求2所述的方法,其特征在于,在基于所述待备份数据的属性信息确定所述待备份数据的文件格式是否为TXT格式之后,还包括:基于所述待备份数据的属性信息确定所述待备份数据的文件格式是否为ORC格式;在确定所述待备份数据的文件格式为ORC格式的情况下,基于所述筛选字段列表、过滤条件和所述待备份数据的属性信息生成建表的结构化查询语句。4.根据权利要求2所述的方法,其特征在于,在基于所述筛选字段列表、过滤条件和所述待备份数据的属性信息生成建表的结构化查询语句之前,还包括:在确定需要保留的情况下,确定所述中间表的文件格式为CSV格式;对应的,利用所述建表的结构化查询语句将所述待备份数据抽取至生成的中间表中,包括:执行所述建表的结构化查询语句生成初始空表;执行所述建表的结构化查询语句读取所述待备份数据;调用反序列算法逐行将所述待备份数据转换为Java对象,得到多个对象列表;在确定所述多个对象列表中目标对象列表为空的情况下,丢弃所述...
【专利技术属性】
技术研发人员:沈贇,阳兵,唐家星,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。