一种基于大数据spark的迁移工具制造技术

技术编号:41480556 阅读:26 留言:0更新日期:2024-05-30 14:30
本发明专利技术涉及一种基于大数据spark的迁移工具,包括以下步骤:第一步,对数据源进行观察,了解数据特征,估计数据规模,为spark任务启动时的参数配置提供依据;第二步,使用spark‑shell对数据进行小规模的采样分析;第三步,按照业务要求和数据标准对数据进行清洗,转换;第四步,明确数据最终落地形式,针对不同的目的数据库进行参数配置;第五步,提交spark任务,收集任务日志。本发明专利技术能对接各种数据源,同时能借助大数据集群的算力对数据进行各种个性化的处理,而且个性化的日志输出也有利于数据巡检和对账。

【技术实现步骤摘要】

本专利技术属于大数据,涉及一种基于大数据spark的迁移工具


技术介绍

1、随着数据中心的数据量不断增加,以及业务方对数据价值的认识不断加深,作为整个数据分析过程中最基础的数据迁移工作显得愈发重要。传统的数据迁移工具kattle,sqoop等在面对大数据量的业务场景和个性化的数据源时无法满足全部的业务场景,而通过基于大数据领域中使用最广泛的计算引擎spark开发的迁移工具就能很好的解决不同数据源以及大数据量场景下的数据迁移工作。


技术实现思路

1、本专利技术的目的是提供一种基于大数据spark的迁移工具,解决随着业务发展带来的大数据量的迁移效率及标准化要求。

2、本专利技术的技术方案如下:

3、一种基于大数据spark的迁移工具,其特征在于,包括以下步骤:

4、第一步,对数据源进行观察,了解数据特征,估计数据规模,为spark任务启动时的参数配置提供依据;

5、第二步,使用spark-shell对数据进行小规模的采样分析;

6、第三步,按照业务要求本文档来自技高网...

【技术保护点】

1.一种基于大数据spark的迁移工具,其特征在于,包括以下步骤:

【技术特征摘要】

1.一种基于大数据spark的迁移...

【专利技术属性】
技术研发人员:冯君
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1