一种文件采集方法及装置制造方法及图纸

技术编号:37981298 阅读:6 留言:0更新日期:2023-06-30 09:56
本申请提供一种文件采集方法及装置,该方法包括:根据预先配置的采集定时规则启动文件采集定时任务;确定文件采集定时任务的文件采集时间段;在文件采集定时任务下,根据预设的文件存储目录和预设的文件存储平台,对目标存储平台进行文件扫描,得到扫描文件集合;根据文件采集时间段对扫描文件集合进行时间段过滤,得到第一文件集合;根据预设的文件类型筛选规则,对第一文件集合进行筛选处理,得到第二文件集合;对第二文件集合进行转换解压处理,得到目标文件集合。可见,该方法能够灵活快速的进行文件数据采集,适配多样的文件存储环境和目录,且能够避免数据丢失、数据重复等问题。题。题。

【技术实现步骤摘要】
一种文件采集方法及装置


[0001]本申请涉及数据处理
,具体而言,涉及一种文件采集方法及装置。

技术介绍

[0002]目前,在芯片测试过程中,测试机台会对每一次测试的结果都输出到文件中保留下来。大多数测试机台都会生成STDF二进制测试结果文件,即标准测试数据文件,但是也存在少部分测试机不会输出标准STDF文件,而是生成csv、txt、excel、log、map、bin、wat、summary等格式多样内容不一的文本类型的测试文件,且文件会使用zip、z、gz、7z、tar、分卷等多种压缩方式,测试文件的存储平台也各不相同,会使用FTP、SFTP、本机等多种存储方式。在半导体测试过程中,为了保证测试结果的准确性、可靠性和全面性,需要对相关测试数据进行采集。目前对于半导体测试数据的采集仅限于对标准的STDF文件做采集,且采集方法不够灵活,无法适配多样的文件存储环境和目录,无法准确的判断需要采集的半导体测试文件,采集方法往往存在数据丢失、数据重复等问题,存在一定的局限性。可见,现有采集方法不够灵活,无法适配多样的文件存储环境和目录,且存在数据丢失、数据重复等问题。

技术实现思路

[0003]本申请实施例的目的在于提供一种文件采集方法及装置,能够灵活快速的进行文件数据采集,适配多样的文件存储环境和目录,且能够避免数据丢失、数据重复等问题。
[0004]本申请实施例第一方面提供了一种文件采集方法,包括:根据预先配置的采集定时规则启动文件采集定时任务;确定所述文件采集定时任务的文件采集时间段;在所述文件采集定时任务下,根据预设的文件存储目录和预设的文件存储平台,对目标存储平台进行文件扫描,得到扫描文件集合;根据所述文件采集时间段对所述扫描文件集合进行时间段过滤,得到第一文件集合;根据预设的文件类型筛选规则,对所述第一文件集合进行筛选处理,得到第二文件集合;对所述第二文件集合进行转换解压处理,得到目标文件集合。
[0005]在上述实现过程中,该方法可以优先根据预先配置的采集定时规则启动文件采集定时任务;可见,该方法可以基于定时规则开始对数据进行采集,从而以此来实现数据的自动化采集。在启动文件采集定时任务之后,该方法可以确定文件采集定时任务的文件采集时间段;可见,该方法可以基于文件采集定时任务确定文件采集有效时长,从而以此来确定后续数据筛选基准。然后,该方法开始基于预设的文件存储目录和预设的文件存储平台,对目标存储平台进行文件扫描,得到扫描文件集合,从而以此来获取到初步的扫描文件集合。并在之后,进一步根据文件采集时间段对扫描文件集合进行时间段过滤,得到第一文件集
合;再根据预设的文件类型筛选规则,对第一文件集合进行筛选处理,得到第二文件集合;可见,该方法可以基于时间要求和文件类型要求对扫描得到的大量文件进行筛选,从而得到准确且有效的文件集合,记为第二文件集合。最后,该方法再对第二文件集合进行转换解压处理,得到目标文件集合;从而以此来完成文件的采集。综上可见,该方法能够在面对不同存储方式(包括FTP、SFTP、本机等)时皆可完成文件适配采集,从而打破了文件存储方式对文件采集的桎梏;同时,通过时间和类型的限定还能够有效的提高文件采集的准确程度和可靠程度,从而有利于解决数据丢失和数据重复的问题。
[0006]进一步地,所述对所述第二文件集合进行转换解压处理,得到目标文件集合的步骤包括:将所述第二文件集合中的文件下载到本地,得到本地文件集合;将所述本地文件集合划分为非标准类型文件集合、压缩分卷文件集合以及其他文件集合;对所述非标准类型文件集合进行格式转换处理,得到转换文件集合;对所述压缩分卷文件集合进行分卷合并处理,得到合并文件集合;汇总所述转换文件集合、所述其他文件集合和所述合并文件集合,得到待解压文件集合;对所述待解压文件集合进行解压处理,得到解压文件集合;根据所述文件类型筛选规则对所述解压文件集合进行筛选处理,得到目标文件集合。
[0007]进一步地,所述对所述非标准类型文件集合进行格式转换处理,得到转换文件集合的步骤包括:将所述非标准类型文件集合中的文件转换成预设格式类型的文件,得到转换文件集合;其中,所述非标准类型包括SUMMARY类型、RAW_DATA类型、LOG类型、MAP类型以及WAT类型。
[0008]进一步地,所述对所述压缩分卷文件集合进行分卷合并处理,得到合并文件集合的步骤包括:获取所述压缩分卷文件集合中的压缩分卷文件;获取所述压缩分卷文件的文件路径和文件名前缀;根据所述文件路径和所述文件名前缀获取所述压缩分卷文件对应的其他分卷文件;按照文件名顺序将所述压缩分卷文件和所述其他分卷文件进行合并处理,得到完整压缩文件;汇总所述完整压缩文件,得到合并文件集合。
[0009]进一步地,所述目标存储平台为FTP存储平台、SFTP存储平台或者预先配置的本机存储平台。
[0010]进一步地,所述方法还包括:判断所述文件采集定时任务需要处理的文件是否全部处理完成;如果是,则获取所述文件采集定时任务处理成功的文件个数以及本次需要处理的文件个数;
根据所述处理成功的文件个数和所述本次需要处理的文件个数确定本次采集的起始时间;结束所述文件采集定时任务。
[0011]本申请实施例第二方面提供了一种文件采集装置,所述文件采集装置包括:启动单元,用于根据预先配置的采集定时规则启动文件采集定时任务;第一确定单元,用于确定所述文件采集定时任务的文件采集时间段;扫描单元,用于在所述文件采集定时任务下,根据预设的文件存储目录和预设的文件存储平台,对目标存储平台进行文件扫描,得到扫描文件集合;过滤单元,用于根据所述文件采集时间段对所述扫描文件集合进行时间段过滤,得到第一文件集合;筛选单元,用于根据预设的文件类型筛选规则,对所述第一文件集合进行筛选处理,得到第二文件集合;解压单元,用于对所述第二文件集合进行转换解压处理,得到采集到的目标文件集合。
[0012]在上述实现过程中,该装置可以通过启动单元来根据预先配置的采集定时规则启动文件采集定时任务;通过第一确定单元确定文件采集定时任务的文件采集时间段;通过扫描单元在文件采集定时任务下,根据预设的文件存储目录和预设的文件存储平台,对目标存储平台进行文件扫描,得到扫描文件集合;通过过滤单元来根据文件采集时间段对扫描文件集合进行时间段过滤,得到第一文件集合;通过筛选单元来根据预设的文件类型筛选规则,对第一文件集合进行筛选处理,得到第二文件集合;再通过解压单元对第二文件集合进行转换解压处理,得到采集到的目标文件集合。可见,该装置能够在面对不同存储方式(包括FTP、SFTP、本机等)时皆可完成文件适配采集,从而打破了文件存储方式对文件采集的桎梏;同时,通过时间和类型的限定还能够有效的提高文件采集的准确程度和可靠程度,从而有利于解决数据丢失和数据重复的问题。
[0013]进一步地,所述解压单元包括:下载子单元,用于将所述第二文件集合中的文件下载到本地,得到本地文件集合;划分子单元,用于将所述本地文件集合划分为非标准类型文件集合、压缩分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件采集方法,其特征在于,所述方法包括:根据预先配置的采集定时规则启动文件采集定时任务;确定所述文件采集定时任务的文件采集时间段;在所述文件采集定时任务下,根据预设的文件存储目录和预设的文件存储平台,对目标存储平台进行文件扫描,得到扫描文件集合;根据所述文件采集时间段对所述扫描文件集合进行时间段过滤,得到第一文件集合;根据预设的文件类型筛选规则,对所述第一文件集合进行筛选处理,得到第二文件集合;对所述第二文件集合进行转换解压处理,得到目标文件集合。2.根据权利要求1所述的文件采集方法,其特征在于,所述对所述第二文件集合进行转换解压处理,得到目标文件集合的步骤包括:将所述第二文件集合中的文件下载到本地,得到本地文件集合;将所述本地文件集合划分为非标准类型文件集合、压缩分卷文件集合以及其他文件集合;对所述非标准类型文件集合进行格式转换处理,得到转换文件集合;对所述压缩分卷文件集合进行分卷合并处理,得到合并文件集合;汇总所述转换文件集合、所述其他文件集合和所述合并文件集合,得到待解压文件集合;对所述待解压文件集合进行解压处理,得到解压文件集合;根据所述文件类型筛选规则对所述解压文件集合进行筛选处理,得到目标文件集合。3.根据权利要求2所述的文件采集方法,其特征在于,所述对所述非标准类型文件集合进行格式转换处理,得到转换文件集合的步骤包括:将所述非标准类型文件集合中的文件转换成预设格式类型的文件,得到转换文件集合;其中,所述非标准类型包括SUMMARY类型、RAW_DATA类型、LOG类型、MAP类型以及WAT类型。4.根据权利要求2所述的文件采集方法,其特征在于,所述对所述压缩分卷文件集合进行分卷合并处理,得到合并文件集合的步骤包括:获取所述压缩分卷文件集合中的压缩分卷文件;获取所述压缩分卷文件的文件路径和文件名前缀;根据所述文件路径和所述文件名前缀获取所述压缩分卷文件对应的其他分卷文件;按照文件名顺序将所述压缩分卷文件和所述其他分卷文件进行合并处理,得到完整压缩文件;汇总所述完整压缩文件,得到合并文件集合。5.根据权利要求1所述的文件采集方法,其特征在于,所述目标存储平台为FTP存储平台、SFTP存储平台或者预先配置的本机存储平台。6.根据...

【专利技术属性】
技术研发人员:陈紫钱大君马力斯周浩
申请(专利权)人:上海孤波科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1