一种基于Spark SQL的数据处理方法及装置制造方法及图纸

技术编号:40542893 阅读:34 留言:0更新日期:2024-03-05 18:59
本申请涉及数据处理技术领域,尤其涉及一种基于Spark SQL的数据处理方法及装置,基于Spark引擎对原始数据进行处理,并将得到的处理结果的相应数据写入数据仓库的Hive表中,然后只需要通过Java调度程序配置与所述Hive表结构一样、名称一样的ElasticSearch表,即可将Hive表中的数据快速写入ElasticSearch表中,完成数据同步,从而在有大量数据表的数据需要进行同步时,可以大大节省工作量;并且在进行数据导入时,对于数据量较大的数据采用ElasticSearch搜索服务器自身的bulk load接口完成数据同步,对于数据量较小的数据通过Spark引擎调用SparkElasticSearch接口完成数据同步,从而根据要导入数据的数据量大小进行灵活控制,达到更高的数据同步效率。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种基于spark sql的数据处理方法及装置。


技术介绍

1、数据仓库(data warehouse,简写为dw),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

2、在数据仓库中,处理好的数据还需要同步到不同的数据库中,以供各种应用使用。在基于hadoop、spark的数据仓库中,用spark处理完数据,然后还需要将数据同步到rdbms、elasticsearch等数据库中。其中将数据同步到elasticsearch时,由于elasticsearch与spark常规处理差异比较大,同步时需要很多的开发工作才可以完成,而由于开发的代码很多,bug也会同步增长,从而降低了数据同步的效率。


技术实现思路

1、为克服现有技术中的不足,本申请提供一种基于spark sql的数据处理方法及装置,能够通过配置表名称完成数据同步,提升数据本文档来自技高网...

【技术保护点】

1.一种基于Spark SQL的数据处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于Spark SQL的数据处理方法,其特征在于,所述基于Spark引擎对原始数据进行处理,包括以下步骤:

3.根据权利要求2所述一种基于Spark SQL的数据处理方法,其特征在于,所述基于所述Hive表构建ElasticSearch表,包括以下步骤:

4.根据权利要求3所述一种基于Spark SQL的数据处理方法,其特征在于,所述将所述ElasticSearch表中的数据删除,包括以下步骤:

5.根据权利要求4所述一种基于Spark SQ...

【技术特征摘要】

1.一种基于spark sql的数据处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于spark sql的数据处理方法,其特征在于,所述基于spark引擎对原始数据进行处理,包括以下步骤:

3.根据权利要求2所述一种基于spark sql的数据处理方法,其特征在于,所述基于所述hive表构建elasticsearch表,包括以下步骤:

4.根据权利要求3所述一种基于spark sql的数据处理方法,其特征在于,所述将所述elasticsearch表中的数据删除,包括以下步骤:

5.根据权利要求4所述一种基于spark sql的数据处理方法,其特征在于,所述基于spark引擎将所述hive表的中的数据写入elasticsearch表中,包括以下步骤:

6.根据权利要求5所述一种基于spark sql的数据处理方法,其特...

【专利技术属性】
技术研发人员:崔雪征张金龙贾小龙李娟
申请(专利权)人:昆仑数智科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1