提升Spark结构化流文件数据源读取性能方法及装置制造方法及图纸

技术编号:27146791 阅读:9 留言:0更新日期:2021-01-27 22:03
本发明专利技术公开了一种提升Spark Structured Streaming文件数据源读取性能的方法和装置。本发明专利技术通过对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件,在读取每个批次文件时,只需要遍历该元数据文件即可。同时,增加数据清理的逻辑,将已完成处理的文件执行删除或者移动至备份的目录,减少文件数据源目录下的文件数量,提升了读取性能,减少了处理工作量,降低了成本。降低了成本。降低了成本。

【技术实现步骤摘要】
提升Spark结构化流文件数据源读取性能方法及装置


[0001]本专利技术涉及大数据
,具体涉及一种提升Spark Structured Streaming文件数据源读取性能的方法以及装置。

技术介绍

[0002]Spark Structured Streaming(Spark结构化流)是用于实时数据处理的大数据计算引擎,可针对海量数据进行计算、分析。
[0003]使用Spark Structured Streaming监控文件目录时,目录下的文件会源源不断的增加,由于Spark Structured Streaming在每个批次读取数据时,需要列出目录下的所有文件,以遍历最新的文件进行实时读取。这就带来了以下问题:
[0004](1)、每个批次都需要列出目录下所有文件,如果文件数量非常多,很有可能会导致内存溢出;
[0005](2)、遍历所有文件,成本开销大,降低实时处理的性能;
[0006](3)、当手工清理目录下已经处理完成的文件时,面临无法识别哪些文件已经处理完成的问题。
[0007]针对上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0008]本专利技术通过在生成数据源文件的时候,同步生成一份描述文件的基本信息的元数据,存储在专用的元数据文件中。每个批次在读取文件时,只需要遍历该元数据文件即可。同时,增加数据清理的逻辑,将已完成处理的文件执行删除或者移动至备份的目录,减少文件数据源目录下的文件数量,提升了读取性能。
[0009]为实现上述目的,提供了如下方案:
[0010]一种提升Spark Structured Streaming文件数据源读取性能的方法,其步骤为:
[0011](1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件;
[0012](2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
[0013](3)读取状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
[0014]进一步的,将上述步骤发布为二进制jar包,在项目中调用,经过开发提交至spark的集群运行。
[0015]进一步的,将上述元数据文件和状态文件的路径作为改造过的Spark Structured Streaming的FileStreamSource数据源类的构造参数来用于读取文件列表;
[0016]进一步的,如果清理策略为删除,则删除上一批次对应的数据文件。如果清理策略为移动,则将上一批次对应的已完成处理的文件移动至已设置的目录进行备份;
[0017]进一步的,上述生成的元数据文件包括文件名、文件大小、修改时间、文件的状态等基本信息。
[0018]本专利技术还提供一种提升Spark Structured Streaming文件数据源读取性能的装置,包括:
[0019]元数据生成模块,用于对新批次的待监控数据源文件同步生成一份元数据文件;
[0020]数据源读取模块,用于读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
[0021]数据源清理模块,用于根据状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
[0022]本专利技术实施例在每个批次的任务执行完成后,只需要在检查点文件中保存已完成处理的文件在元数据文件中的偏移量,而不需要保存所有的已完成文件的列表,大幅降低检查点文件的大小。每个批次的任务,在获取最新的文件时,不需要列出数据源目录的所有文件,只需要从上一次消费的元数据文件的偏移量开始读取文件列表。文件清理逻辑减少了数据源目录下文件的数量,提升了每个批次数据读取的性能和稳定性,避免文件过多导致性能下降甚至内存溢出。
附图说明
[0023]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0024]图1是本专利技术实施例中一种提升Spark Structured Streaming文件数据源读取性能的方法和装置的数据源读取流程图;
[0025]图2是本专利技术实施例中一种提升Spark Structured Streaming文件数据源读取性能的方法和装置的偏移量说明图。
[0026]图3是本专利技术实施例中一种提升Spark Structured Streaming文件数据源读取性能的方法和装置的项目实施流程图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0028]如前所述,Spark Structured Streaming在读取监控文件目录时,目录下的文件会源源不断的增加,如果遍历所有文件的话,那么当文件数量非常多的时候,很有可能会导致内存溢出;而且,成本开销会很大,降低实时处理的性能;其次,在当手工清理目录下已经处理完成的文件时,面临无法识别哪些文件已经处理完成的问题。
[0029]为了提高数据处理效率,减少处理工作量,降低成本,本专利技术实施例提供一种提升Spark Structured Streaming文件数据源读取性能的方法,如图1所示,该方法可以包括以下步骤:
[0030](1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件;
[0031](2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;
[0032](3)读取状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。
[0033]具体实施时,新增一个专用的文件或者目录,存储文件的基本信息,包括文件名、文件大小、修改时间等元数据信息。
[0034]数据在写入Spark Structured Streaming的监控目录时,在元数据文件中生成一条该文件的记录。
[0035]配置示例可参考如下:
[0036]{"path":"/data/Input/part001.csv","size":34,"modificationTime":1599100115000}
[0037]{"path":"/data/Input/part002.csv","size":134,"modificationTime":1599100116022}
[0038]{"path":"/data/Input/part003.csv","size本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.提升Spark结构化流文件数据源读取性能方法,其特征在于,包括以下步骤:(1)对新增的待监控文件数据源同步生成一份配置其基本信息的元数据文件;(2)读取存储上一批次任务对应的文件列表以及上一批次任务消费的文件在元数据文件中偏移量的状态文件,在元数据文件中,根据此偏移量,获取待消费的文件列表,进行处理;(3)读取状态文件列表,根据清理策略对上一批次的文件进行数据清理,并更新状态文件。2.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法,其特征在于:将上述步骤发布为二进制jar包,在项目中调用,经过开发提交至spark的集群运行。3.根据权利要求1所述的提升Spark结构化流文件数据源读取性能方法,其特征在于:将上述元数据文件和状态文件的路径作为改造过的Spark Structured Streaming的FileStreamSource数据源类的构造参数来用于读取文件列表;...

【专利技术属性】
技术研发人员:周朝卫
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1