一种基于Spark SQL的数据处理方法及装置制造方法及图纸

技术编号：40542893 阅读：34 留言：0更新日期：2024-03-05 18:59

本申请涉及数据处理技术领域，尤其涉及一种基于Spark SQL的数据处理方法及装置，基于Spark引擎对原始数据进行处理，并将得到的处理结果的相应数据写入数据仓库的Hive表中，然后只需要通过Java调度程序配置与所述Hive表结构一样、名称一样的ElasticSearch表，即可将Hive表中的数据快速写入ElasticSearch表中，完成数据同步，从而在有大量数据表的数据需要进行同步时，可以大大节省工作量；并且在进行数据导入时，对于数据量较大的数据采用ElasticSearch搜索服务器自身的bulk load接口完成数据同步，对于数据量较小的数据通过Spark引擎调用SparkElasticSearch接口完成数据同步，从而根据要导入数据的数据量大小进行灵活控制，达到更高的数据同步效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种基于spark sql的数据处理方法及装置。

技术介绍

1、数据仓库(data warehouse，简写为dw)，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

2、在数据仓库中，处理好的数据还需要同步到不同的数据库中，以供各种应用使用。在基于hadoop、spark的数据仓库中，用spark处理完数据，然后还需要将数据同步到rdbms、elasticsearch等数据库中。其中将数据同步到elasticsearch时，由于elasticsearch与spark常规处理差异比较大，同步时需要很多的开发工作才可以完成，而由于开发的代码很多，bug也会同步增长，从而降低了数据同步的效率。

技术实现思路

1、为克服现有技术中的不足，本申请提供一种基于spark sql的数据处理方法及装置，能够通过配置表名称完...

【技术保护点】

1.一种基于Spark SQL的数据处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于Spark SQL的数据处理方法，其特征在于，所述基于Spark引擎对原始数据进行处理，包括以下步骤：

3.根据权利要求2所述一种基于Spark SQL的数据处理方法，其特征在于，所述基于所述Hive表构建ElasticSearch表，包括以下步骤：

4.根据权利要求3所述一种基于Spark SQL的数据处理方法，其特征在于，所述将所述ElasticSearch表中的数据删除，包括以下步骤：

5.根据权利要求4所述一种基于Spark SQ...

【技术特征摘要】

1.一种基于spark sql的数据处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于spark sql的数据处理方法，其特征在于，所述基于spark引擎对原始数据进行处理，包括以下步骤：

3.根据权利要求2所述一种基于spark sql的数据处理方法，其特征在于，所述基于所述hive表构建elasticsearch表，包括以下步骤：

4.根据权利要求3所述一种基于spark sql的数据处理方法，其特征在于，所述将所述elasticsearch表中的数据删除，包括以下步骤：

5.根据权利要求4所述一种基于spark sql的数据处理方法，其特征在于，所述基于spark引擎将所述hive表的中的数据写入elasticsearch表中，包括以下步骤：

6.根据权利要求5所述一种基于spark sql的数据处理方法，其特...

【专利技术属性】
技术研发人员：崔雪征，张金龙，贾小龙，李娟，
申请(专利权)人：昆仑数智科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人