【技术实现步骤摘要】
流式数据存储方法及装置
本专利技术涉及数据存储
,尤其涉及流式数据存储方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。ApacheSpark是一个快速、通用的集群计算系统,它提供了Java、Scala、Python和R语言的高级API(ApplicationProgrammingInterface,应用程序接口),以及支持一般执行图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL结构化数据处理的SparkSQL、用于机器学习的MLlib、用于图形处理的GraphX及SparkStreaming。Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有分布式文件系统有很多共同点,但同时它和其他分布式文件系统的区别也很明显。HDFS是一个高度容错的系统,适合部署在廉价的机器上。HDF ...
【技术保护点】
1.一种流式数据存储方法,其特征在于,包括:/n获取Hive数据库表的分区信息;/n接收流式数据处理引擎传入的流式数据;/n判断Hive数据库表的分区信息是否包含接收到的流式数据的分区信息;/n在Hive数据库表的分区信息不包含接收到的流式数据的分区信息时,创建新的Hive分区;/n将接收到的流式数据存储至新的Hive分区对应的HDFS文件中。/n
【技术特征摘要】
1.一种流式数据存储方法,其特征在于,包括:
获取Hive数据库表的分区信息;
接收流式数据处理引擎传入的流式数据;
判断Hive数据库表的分区信息是否包含接收到的流式数据的分区信息;
在Hive数据库表的分区信息不包含接收到的流式数据的分区信息时,创建新的Hive分区;
将接收到的流式数据存储至新的Hive分区对应的HDFS文件中。
2.如权利要求1所述的流式数据存储方法,其特征在于,还包括:
在Hive数据库表的分区信息包含接收到的流式数据的分区信息时,将接收到的流式数据存储至包含该流式数据分区信息的Hive分区对应的HDFS文件中。
3.如权利要求1所述的流式数据存储方法,其特征在于,在步骤将接收到的流式数据存储至新的Hive分区对应的HDFS文件中之前,还包括:
将创建的新的Hive分区的分区信息更新至Hive数据库表的分区信息中。
4.如权利要求1所述的流式数据存储方法,其特征在于,获取Hive数据库表的分区信息,包括:
通过Hive的元数据库获取Hive数据库表的分区信息。
5.如权利要求1所述的流式数据存储方法,其特征在于,流式数据处理引擎包括spark流式数据引擎,接收流式数据处理引擎传入的流式数据,包括:
通过实时流处理接收spark流式数据引擎传入的流式数据。
6.如权利要求1所述的流式数据存储方法,其...
【专利技术属性】
技术研发人员:朱阿龙,田林,石慧彪,王博瑞,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。