一种基于Spark的对Hive中数据进行插入、更新和删除的方法技术

技术编号:23084978 阅读:108 留言:0更新日期:2020-01-11 01:07
本发明专利技术公开了一种基于Spark的对Hive中数据进行插入更新和删除的方法,属于大数据计算技术领域,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:1)、Nifi抽取传统数据库增加操作时间和操作类型的标签;2)、Spark读取HBASE获取增量数据;3)、Spark读取Hive需要更新的分区的数据;4)、Spark将HBASE中增量数据与Hive中的存量数据合并;5)、批量删除HBASE增量数据。本发明专利技术传统数据库数据抽取至Hive时,数据无法更新的问题,实现了将数据从传统关系数据库同步至Hive大数据仓库中,数据的插入、更新和删除操作。

A method of inserting, updating and deleting data in hive based on spark

【技术实现步骤摘要】
一种基于Spark的对Hive中数据进行插入、更新和删除的方法
本专利技术涉及大数据计算
,具体地说是一种基于Spark的对Hive中数据进行插入、更新和删除的方法。
技术介绍
目前我国提出实施国家大数据战略:“把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。那么未来最贵的资源必定是数据,如何采集、存储和计算数据成为了当前热点话题,Hive和Spark分别作为当前大数据领域内存储和计算使用最多的技术,引起了工业界的广泛关注。Spark是基于内存的分布式计算框架,并且对Hadoop生态系统有高度的支持,比如支持从HDFS、Hbase、Hive等分布式文件系统读取数据。而且Spark目前发展非常迅速,支持的持久层框架越来越多,并且随着SparkSQL的出现,通过SparkSQL直接访问Hive更加方便,数据开发人员直接用SQL语句便可以做数据分析,降低了Spark和大数据开发难度。但是Spark+Hive的计算组合也要面临一个问题,Spark无法访问Hive本文档来自技高网...

【技术保护点】
1.一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:/n1)、Nifi抽取传统数据库,增加操作时间和操作类型的标签;/n2)、Spark读取HBASE获取增量数据;/n3)、Spark读取Hive需要更新的分区的数据;/n4)、Spark将HBASE中增量数据与Hive中的存量数据合并;/n5)、批量删除HBASE增量数据。/n

【技术特征摘要】
1.一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1)、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
2)、Spark读取HBASE获取增量数据;
3)、Spark读取Hive需要更新的分区的数据;
4)、Spark将HBASE中增量数据与Hive中的存量数据合并;
5)、批量删除HBASE增量数据。


2.根据权利要求1所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法的具体实现方式为:
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。


3.根据权利要求1或2所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于所述Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。


4.根据权利要求3所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于定义Nifi从传统关系数据库抽取log日志的流程,
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYP...

【专利技术属性】
技术研发人员:周永进刘传涛
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1