提升Spark结构化流文件数据源读取性能方法及装置制造方法及图纸

技术编号：27146791 阅读：9 留言：0更新日期：2021-01-27 22:03

本发明专利技术公开了一种提升Spark Structured Streaming文件数据源读取性能的方法和装置。本发明专利技术通过对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件，在读取每个批次文件时，只需要遍历该元数据文件即可。同时，增加数据清理的逻辑，将已完成处理的文件执行删除或者移动至备份的目录，减少文件数据源目录下的文件数量，提升了读取性能，减少了处理工作量，降低了成本。降低了成本。降低了成本。

全部详细技术资料下载

【技术实现步骤摘要】
提升Spark结构化流文件数据源读取性能方法及装置

[0001]本专利技术涉及大数据
，具体涉及一种提升Spark Structured Streaming文件数据源读取性能的方法以及装置。

技术介绍

[0002]Spark Structured Streaming(Spark结构化流)是用于实时数据处理的大数据计算引擎，可针对海量数据进行计算、分析。
[0003]使用Spark Structured Streaming监控文件目录时，目录下的文件会源源不断的增加，由于Spark Structured Streaming在每个批次读取数据时，需要列出目录下的所有文件，以遍历最新的文件进行实时读取。这就带来了以下问题：
[0004](1)、每个批次都需要列出目录下所有文件，如果文件数量非常多，很有可能会导致内存溢出；
[0005](2)、遍历所有文件，成本开销大，降低实时处理的性能；
[0006](3)、当手工清理目录下已经处理完成的文件时，面临无法识别哪些文件已经处理完成的问题。
[0007]针对上述问题，目前尚未提出有效的解决方案。

技术实现思路

[0008]本专利技术通过在生成数据源文件的时候，同步生成一份描述文件的基本信息的元数据，存储在专用的元数据文件中。每个批次在读取文件时，只需要遍历该元数据文件即可。同时，增加数据清理的逻辑，将已完成处理的文件执行删除或者移动至备份的目录，减少文件数据源目录下的文件数量，提升了读取性能。
[0009]为...

【技术保护点】

【技术特征摘要】
1.提升Spark结构化流文件数据源读取性能方法，其特征在于，包括以下步骤：(1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件；(2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件，在元数据文件中，根据此偏移量，获取待消费的文件列表，进行处理；(3)读取状态文件列表，根据清理策略对上一批次的文件进行数据清理，并更新状态文件。2.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法，其特征在于：将上述步骤发布为二进制jar包，在项目中调用，经过开发提交至spark的集群运行。3.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法，其特征在于：将上述元数据文件和状态文件的路径作为改造过的Spark Structured Streaming的FileStreamSource数据源类的构造参数来用于读取文件列表；...

【专利技术属性】
技术研发人员：周朝卫，
申请(专利权)人：中盈优创资讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人