System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40115399 阅读:10 留言:0更新日期:2024-01-23 19:49
本申请实施例提供一种数据处理方法、装置、电子设备及存储介质,方法包括:确定第一存储空间中的新增文件集合;若数据处理策略为单文件处理策略,将新增文件同步至第二存储空间,得到同步文件;新增文件为新增文件集合中的一个文件;确定同步文件中多个话题信息对应的数据特征信息;基于数据特征信息,从同步文件中提取多个话题信息对应的数据。通过本申请实施例的一种数据处理方法,可以避免资源浪费,提高数据处理效率。

【技术实现步骤摘要】

本专利技术涉及辅助驾驶领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质


技术介绍

1、近年来,随着计算机技术和网络技术的发展,数据量不断增大,且用户需求不断增多,因此,对数据处理效率的要求越来越高。以自动驾驶的数据处理为例,随着自动驾驶技术的快速发展,自动驾驶的数据量也随之暴增,为了应对更大的数据量,要求算力单元能够快捷方便地对大数据进行分析和挖掘,并提高自动驾驶的数据处理效率。

2、在数据处理方法中,提取、转换、加载(extract-transform-load,etl)指从一个或多个数据源,将业务系统的数据经过提取、清洗转换之后加载到数据仓库的过程,加载到数据仓库中的数据可以用于数据分析和数据挖掘。现有的数据处理方法主要通过批处理的方式进行,每个批次对扫描得到的多个增量文件进行处理,而且每个步骤必须在等到上个步骤的所有文件全部处理完成的情况下才能开始处理,导致提取文件的产出较慢;并且,在对多个文件的处理过程中,如果存在有一个文件对应的子任务处理失败或者处理异常,则该步骤所有文件的处理任务都会被重跑,从而造成大量的资源浪费。


技术实现思路

1、针对现有技术存在的缺陷,本公开实施例提供一种数据处理方法、装置、电子设备及存储介质,可以避免资源浪费,提高数据处理效率。

2、本申请实施例提供一种数据处理方法,包括:确定第一存储空间中的新增文件集合;若数据处理策略为单文件处理策略,将新增文件同步至第二存储空间,得到同步文件;新增文件为新增文件集合中的一个文件;确定同步文件中多个话题信息对应的数据特征信息;基于数据特征信息,从同步文件中提取多个话题信息对应的数据。

3、可选的,基于数据特征信息,从同步文件中提取多个话题信息对应的数据之后,方法还包括:若数据处理策略为多文件处理策略,将新增文件集合同步至第二存储空间,得到同步文件集合;确定同步文件集合中多个话题信息对应的数据特征信息;基于数据特征信息,从同步文件集合中提取多个话题信息对应的数据。

4、可选的,确定第一存储空间中的新增文件集合,包括:基于预设频率扫描第一存储空间,得到当前扫描文件;获取历史扫描文件;将当前扫描文件和历史扫描文件对比,确定待筛文件;若确定第二存储空间中不存在和待筛文件相同的文件,将待筛文件确定为新增文件;基于新增文件确定新增文件集合。

5、可选的,确定同步文件中多个话题信息对应的数据特征信息,包括:确定同步文件中多个话题信息对应的数据位置信息和数据量信息。

6、可选的,确定第一存储空间中的新增文件集合之后,方法还包括:向监控模块发送文件新增日志;文件新增日志用于指示监控模块基于文件新增日志向执行模块发送第一指示消息,第一指示消息包含新增文件的信息;若数据处理策略为单文件处理策略,将新增文件同步至第二存储空间,得到同步文件,包括:接收第一指示消息;若数据处理策略为单文件处理策略,基于第一指示消息,确定新增文件的信息;基于新增文件的信息,将新增文件同步至第二存储空间,得到同步文件。

7、可选的,若数据处理策略为单文件处理策略,将新增文件同步至第二存储空间,得到同步文件之后,方法还包括:向监控模块发送数据同步日志;数据同步日志用于指示监控模块基于数据同步日志向执行模块发送第二指示消息,第二指示消息包含同步文件的信息;确定同步文件中多个话题信息对应的数据特征信息,包括:接收第二指示消息;基于第二指示消息,确定同步文件的信息;基于同步文件的信息读取并解析同步文件,得到多个话题信息对应的数据特征信息。

8、可选的,确定同步文件中多个话题信息对应的数据特征信息之后,方法还包括:向监控模块发送数据特征日志;数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息,第二指示消息包含数据特征信息;基于数据特征信息,从同步文件中提取多个话题信息对应的数据,包括:接收第三指示消息;基于第三指示消息,确定数据特征信息;基于数据特征信息,从同步文件中提取多个话题信息对应的数据。

9、相应地,本申请实施例还提供一种数据处理装置,包括:

10、第一确定模块,用于确定第一存储空间中的新增文件集合;

11、同步模块,用于若数据处理策略为单文件处理策略,将新增文件同步至第二存储空间,得到同步文件;新增文件为新增文件集合中的一个文件;

12、第二确定模块,用于确定同步文件中多个话题信息对应的数据特征信息;

13、提取模块,用于基于数据特征信息,从同步文件中提取多个话题信息对应的数据。

14、可选的,装置还包括,多文件处理模块,用于若数据处理策略为多文件处理策略,将新增文件集合同步至第二存储空间,得到同步文件集合;确定同步文件集合中多个话题信息对应的数据特征信息;基于数据特征信息,从同步文件集合中提取多个话题信息对应的数据。

15、可选的,第一确定模块用于基于预设频率扫描第一存储空间,得到当前扫描文件;获取历史扫描文件;将当前扫描文件和历史扫描文件对比,确定待筛文件;若确定第二存储空间中不存在和待筛文件相同的文件,将待筛文件确定为新增文件;基于新增文件确定新增文件集合。

16、可选的,第二确定模块用于确定同步文件中多个话题信息对应的数据位置信息和数据量信息。

17、可选的,第一确定模块还用于,在确定第一存储空间中的新增文件集合之后:向监控模块发送文件新增日志;文件新增日志用于指示监控模块基于文件新增日志向执行模块发送第一指示消息,第一指示消息包含新增文件的信息。同步模块用于:接收第一指示消息;若数据处理策略为单文件处理策略,基于第一指示消息,确定新增文件的信息;基于新增文件的信息,将新增文件同步至第二存储空间,得到同步文件。

18、可选的,同步模块还用于,在若数据处理策略为单文件处理策略,将新增文件同步至第二存储空间,得到同步文件之后:向监控模块发送数据同步日志;数据同步日志用于指示监控模块基于数据同步日志向执行模块发送第二指示消息,第二指示消息包含同步文件的信息。第二确定模块用于:接收第二指示消息;基于第二指示消息,确定同步文件的信息;基于同步文件的信息读取并解析同步文件,得到多个话题信息对应的数据特征信息。

19、可选的,第二确定模块还用于,在确定同步文件中多个话题信息对应的数据特征信息之后:向监控模块发送数据特征日志;数据特征日志用于指示监控模块基于数据特征日志向执行模块发送第三指示消息,第二指示消息包含数据特征信息。提取模块用于:接收第三指示消息;基于第三指示消息,确定数据特征信息;基于数据特征信息,从同步文件中提取多个话题信息对应的数据。

20、相应地,本公开实施例提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的数据处理方法。

21、相应地,本公开实施例提供一种计算机可读存储介质,存本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的一种数据处理方法,其特征在于,所述基于所述数据特征信息,从所述同步文件中提取所述多个话题信息对应的数据之后,所述方法还包括:

3.根据权利要求1所述的一种数据处理方法,其特征在于,所述确定第一存储空间中的新增文件集合,包括:

4.根据权利要求1所述的一种数据处理方法,其特征在于,所述确定所述同步文件中多个话题信息对应的数据特征信息,包括:

5.根据权利要求1所述的一种数据处理方法,其特征在于,

6.根据权利要求1所述的一种数据处理方法,其特征在于,

7.根据权利要求1所述的一种数据处理方法,其特征在于,

8.一种数据处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-7任意一项所述的数据处理方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现权利要求1-7任意一项所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的一种数据处理方法,其特征在于,所述基于所述数据特征信息,从所述同步文件中提取所述多个话题信息对应的数据之后,所述方法还包括:

3.根据权利要求1所述的一种数据处理方法,其特征在于,所述确定第一存储空间中的新增文件集合,包括:

4.根据权利要求1所述的一种数据处理方法,其特征在于,所述确定所述同步文件中多个话题信息对应的数据特征信息,包括:

5.根据权利要求1所述的一种数据处理方法,其特征在于,

6.根据权利要求1所述的一种数据处理方法,其特征在于,

7.根据权...

【专利技术属性】
技术研发人员:朱自林
申请(专利权)人:宁波路特斯机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1