【技术实现步骤摘要】
数据迁移方法和装置
本专利技术涉及数据处理
,尤其涉及一种数据迁移方法和装置。
技术介绍
Hadoop是一个能够对大量数据进行分布式处理的软件框架、一个能够让用户轻松架构和使用的分布式计算平台,由Apache基金会所开发,使用户可以在不了解分布式底层细节的情况下,开发分布式程序。随着业务量的增长,数据也进入突飞猛进的时代,目前很多大数据公司都在使用hadoop体系框架。其中,很多公司在几年后都会做hadoop集群数据迁移,目前常用的hadoop集群数据迁移方法是先把旧hadoop集群上的数据下载到本地,再发送到远程另一个集群的本地,然后再由远程另一个集群的本地上传到新的hadoop集群上,最后再进行赋权限和验证,现有数据迁移技术不够自动化,人工操作比较多,增加了遗漏或者出错风险以及入库人员的工作量。
技术实现思路
针对现有技术中的问题,本专利技术提供一种数据迁移方法和装置、电子设备以及计算机可读存储介质,能够至少部分地解决现有技术中存在的问题。为了实现上述目的,本专利技术采用如下技术 ...
【技术保护点】
1.一种数据迁移方法,其特征在于,包括:/n获取待迁移hadoop集群上的数据分布情况;/n根据所述数据分布情况获取数据迁移策略;/n根据所述数据迁移策略将所述待迁移hadoop集群上的数据直接迁移至目标hadoop集群上;/n根据待迁移hadoop集群上的数据分布情况对迁移后目标hadoop集群上的数据进行验证。/n
【技术特征摘要】
1.一种数据迁移方法,其特征在于,包括:
获取待迁移hadoop集群上的数据分布情况;
根据所述数据分布情况获取数据迁移策略;
根据所述数据迁移策略将所述待迁移hadoop集群上的数据直接迁移至目标hadoop集群上;
根据待迁移hadoop集群上的数据分布情况对迁移后目标hadoop集群上的数据进行验证。
2.根据权利要求1所述的数据迁移方法,其特征在于,所述获取待迁移hadoop集群上的数据分布情况,包括:
对待迁移hadoop集群上的目录进行递归扫描获取所述数据分布情况,其中,所述数据分布情况包括:目录下文件个数以及文件大小、目录的预设优先级别。
3.根据权利要求2所述的数据迁移方法,其特征在于,所述根据所述数据分布情况获取数据迁移策略,包括:
根据各目录的预设优先级别对目录进行排序;
根据所述目录下文件个数以及文件大小获取目录的数据传输策略;
根据目录排序结果以及各目录的数据传输策略生成数据迁移模板。
4.根据权利要求3所述的数据迁移方法,其特征在于,所述根据所述数据迁移策略将所述待迁移hadoop集群上的数据直接迁移至目标hadoop集群上,包括:
根据所述数据迁移模板将所述待迁移hadoop集群上的数据依此迁移至目标hadoop集群上。
5.根据权利要求1所述的数据迁移方法,其特征在于,所述根据待迁移hadoop集群上的数据分布情况对迁移后目标hadoop集群上的数据进行验证,包括:
验证迁移后目标hadoop集群上的目录及子目录是否完整;
验证迁移后目标hadoop集群上的目录及子目录权限是否正确;
验证迁移后目标hadoop集群上的目录及子目录中文件个数是否正确;
验证迁移后目标hadoop集群上的目录及子目录中文件字节数是否正确;
验证迁移后目标hadoop集群上的文件对应记录条数是否正确;
验证迁移后目标hadoop集群上的文件内容是否正确。
6.根据权利要求1所述的数据迁移方法,其特征在于,还包括:
显示数据迁移情况。
7.根据权利要求6所述的数据迁移方法,其特征在于,所述数据迁移情况包括:待迁移目录、各目录迁移进度、各目录迁移数据大小、各目录迁移耗时、各目录预计迁移完成时间以及各目录迁移处理的优先级别。
8.一种数据迁移装置,其特征在于,包括:
预处理模块,获取待迁移hadoop集群上的数据分布情况;
迁移策略获取模块,根据所述数据分布情况获取数据迁移策略;
数...
【专利技术属性】
技术研发人员:陈国杰,罗建林,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。