【技术实现步骤摘要】
数据同步方法、装置、及存储介质、电子装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据同步方法、装置、及存储介质、电子装置。
技术介绍
在将数据同步至Hive数据库的过程中,首先需要将数据上传至SFTP服务器,进而将SFTP服务器中的数据加载(load)至Hive数据库中。专利技术人发现,现有技术中通常按照数据表进行操作,而SFTP服务器每次只能上传一个文件,频繁上传会导致SFTP服务器认证失败,并在失败后继续尝试,影响文件上传效率。此外,在加载至Hive数据库中时,需要多次建立连接,耗时较大,严重影响数据加载速度。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据同步方法、装置、及存储介质、电子装置,以至少解决现有技术中将数据同步至Hive数据库的效率较低的技术问题。根据本专利技术的一个实施例,提供了一种数据同步方法,包括:利用ETL工具中指定数量的多个Job将不同数据来源的待同步数据表压缩为多个文本文件,其中,每个Job用于将对应的一个或多个数据来源的待同步数据表压缩为一个文本文件,指定数量等于登录SFT ...
【技术保护点】
1.一种数据同步方法,其特征在于,包括:利用ETL工具中指定数量的多个Job将不同数据来源的待同步数据表压缩为多个文本文件,其中,每个所述Job用于将对应的一个或多个数据来源的待同步数据表压缩为一个文本文件,所述指定数量等于登录SFTP服务器的并发链路的数量;利用每个所述Job将对应生成的文本文件通过对应的并发链路上传至所述SFTP服务器;在所述SFTP服务器中解压每个所述文本文件,得到每个所述文本文件中的待同步数据表;将同一数据来源的所述待同步数据表通过同一加载操作加载至目标Hive数据库对应的HDFS文件系统。
【技术特征摘要】
1.一种数据同步方法,其特征在于,包括:利用ETL工具中指定数量的多个Job将不同数据来源的待同步数据表压缩为多个文本文件,其中,每个所述Job用于将对应的一个或多个数据来源的待同步数据表压缩为一个文本文件,所述指定数量等于登录SFTP服务器的并发链路的数量;利用每个所述Job将对应生成的文本文件通过对应的并发链路上传至所述SFTP服务器;在所述SFTP服务器中解压每个所述文本文件,得到每个所述文本文件中的待同步数据表;将同一数据来源的所述待同步数据表通过同一加载操作加载至目标Hive数据库对应的HDFS文件系统。2.根据权利要求1所述的方法,其特征在于,所述利用ETL工具中指定数量的多个Job将不同数据来源的待同步数据表压缩为多个文本文件,包括:获取所述并发链路的数量;根据所述并发链路的数量确定所述指定数量和划分方案;按照所述划分方案将所述不同数据来源的待同步数据表划分至所述指定数量的多个目录;利用所述ETL工具的每个所述Job对对应的目录进行压缩,得到所述多个文本文件。3.根据权利要求2所述的方法,其特征在于,所述按照所述划分方案将所述不同数据来源的待同步数据表划分至所述指定数量的多个目录,包括:在目标数据来源的数据库中查询待同步数据;按照所述划分方案将查询到的待同步数据写入所述目标数据来源对应的目录中的待同步数据表;所述利用所述ETL工具的每个所述Job对对应的目录进行压缩,包括:在任一目录中的待同步数据表写入完毕的情况下,利用已写完的目录所对应的Job按预设压缩格式压缩目录,得到对应的文本文件。4.根据权利要求1所述的方法,其特征在于,所述在所述SFTP服务器中解压每个所述文本文件,得到每个所述文本文件中的待同步数据表,包括:在任一文本文件上传至所述SFTP服务器中之后,按照目标解压方式解压对应的文本文件,得到对应的所述待同步数据表。5.根据权利要求4所述的方法,其特征在于,所述将同一数据来源的所述待同步数据表通...
【专利技术属性】
技术研发人员:周之浩,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。