【技术实现步骤摘要】
本专利技术属于大数据,涉及一种基于大数据spark的迁移工具。
技术介绍
1、随着数据中心的数据量不断增加,以及业务方对数据价值的认识不断加深,作为整个数据分析过程中最基础的数据迁移工作显得愈发重要。传统的数据迁移工具kattle,sqoop等在面对大数据量的业务场景和个性化的数据源时无法满足全部的业务场景,而通过基于大数据领域中使用最广泛的计算引擎spark开发的迁移工具就能很好的解决不同数据源以及大数据量场景下的数据迁移工作。
技术实现思路
1、本专利技术的目的是提供一种基于大数据spark的迁移工具,解决随着业务发展带来的大数据量的迁移效率及标准化要求。
2、本专利技术的技术方案如下:
3、一种基于大数据spark的迁移工具,其特征在于,包括以下步骤:
4、第一步,对数据源进行观察,了解数据特征,估计数据规模,为spark任务启动时的参数配置提供依据;
5、第二步,使用spark-shell对数据进行小规模的采样分析;
6、
...【技术保护点】
1.一种基于大数据spark的迁移工具,其特征在于,包括以下步骤:
【技术特征摘要】
1.一种基于大数据spark的迁移...
【专利技术属性】
技术研发人员:冯君,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。