一种基于Spark的流式数据处理方法及装置制造方法及图纸

技术编号：14458974 阅读：71 留言：0更新日期：2017-01-19 16:10

本申请实施例提供一种基于Spark的流式数据处理方法及装置。其中方法包括：对数据源中的流式数据按时间为单位进行切分得到数据单元并分别保存；基于Spark,按照所述数据单元对所述保存的数据进行自动调取并处理。基于该种方法，最小化了数据的处理量，大大减少了处理数据对机器内存的依赖，同时也能很快地继续排序以及数据之间的关联操作，可以很快得到时间为单位的处理结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于流式数据处理领域，具体的涉及一种基于Spark的流式数据处理方法及装置。
技术介绍
目前spark处理数据分为两种，一种为直接读取已有储存文件，进行相关操作处理，该种方法如果数据量过大，则对机器的要求非常高，并且如果提取时间粒度相关信息的话，需要全部文件处理完成才能进行提取，该操作时间长周期长，如果spark配置设置不合理的话极易出现内存溢出。另一种方法为流处理，spark从某个或多个数据源实时读取数据(如kafka，flume等等)，然后在设定的时间内实时统计或计算读取的元素。这种处理方法无法处理设定时间内的排序，以及数据之间的关联操作。
技术实现思路
本专利技术的目的在于提供一种基于Spark的流式数据处理方法及装置，以解决现有技术中对机器内存要求高，无法处理设定时间内的排序以及数据之间的关联操作的问题。本专利技术公开了一种基于Spark的流式数据处理方法，所述方法包括：对数据源中的流式数据按时间为单位进行切分得到数据单元并分别保存；基于Spark,按照所述数据单元对所述保存的数据进行自动调取并处理。优选的，所述数据单元被保存在分布式文件系统中。优选的，所述数据源为kafka；和或，基于Spark,使用scala按照所述数据单元对所述保存的数据进行自动调取。优选的，所述数据单元被按照时间命名后保存在分布式文件系统中。优选的，所述基于Spark按照所述数据单元对所述保存的数据进行自动调取并处理包括：基于Spark,按照所述数据单元对所述保存的数据进行自动调取并按照指定开始的时间和保存位置进行处理。本专利技术另一方面还公开了一种基于Spark的...

【技术保护点】
一种基于Spark的流式数据处理方法，其特征在于，所述方法包括：对数据源中的流式数据按时间为单位进行切分得到数据单元并分别保存；基于Spark,按照所述数据单元对所述保存的数据进行自动调取并处理。

【技术特征摘要】
1.一种基于Spark的流式数据处理方法，其特征在于，所述方法包括：对数据源中的流式数据按时间为单位进行切分得到数据单元并分别保存；基于Spark,按照所述数据单元对所述保存的数据进行自动调取并处理。2.如权利要求1所述的基于Spark的流式数据处理方法，其特征在于，所述数据单元被保存在分布式文件系统中。3.如权利要求1所述的基于Spark的流式数据处理方法，其特征在于，所述数据源为kafka；和或，基于Spark,使用scala按照所述数据单元对所述保存的数据进行自动调取。4.如权利要求2所述的基于Spark的流式数据处理方法，其特征在于，所述数据单元被按照时间命名后保存在分布式文件系统中。5.如权利要求2所述的基于Spark的流式数据处理方法，其特征在于，所述基于Spark按照所述数据单元对所述保存的数据进行自动调取并处理包括：基于Spark,按照所述数据单元对所述保存的数据进行自动调取并按照指定开始的时间和保存位置进行处理。6.一种基于Spark的流式数据处理装置，其特征在于，所述装置包括：...

【专利技术属性】
技术研发人员：张良晖，左磊，严俊，罗承成，李阳，桑晓龙，
申请(专利权)人：苏州新科兰德科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人