System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、电子设备以及存储介质制造方法及图纸_技高网

数据处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:40279521 阅读:24 留言:0更新日期:2024-02-02 23:07
本发明专利技术实施例提供了一种数据处理方法、装置、电子设备以及存储介质,涉及计算机技术领域,该方法包括:基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将小文件数据对应的文件属性信息发送至扫描通道;按照预设聚合规则对扫描通道中的文件属性信息进行聚合,得到多个数据列表;从原始数据集中获取各数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至分布式缓存系统中的聚合存储;聚合存储用于供分布式缓存系统中的计算节点基于聚合存储直接获取小文件数据。这样,无需重复访问并依次拉取原始数据集中的小文件数据,一定程度上提升了计算节点获取数据的效率,并且降低了数据传输过程中的开销。

【技术实现步骤摘要】

本专利技术属于计算机,特别是涉及一种数据处理方法、装置、电子设备以及存储介质


技术介绍

1、人工智能(artificial intelligence,ai)技术涉及机器人、语言识别、图像识别、自然语言处理和专家系统等领域的研究。人工智能模型训练,初期阶段是将数据集本地化后,再进行训练,不仅需要本地有足够的磁盘空间,还需要花费更长的时间,等待数据集本地化完成。

2、相关技术中,数据集本地化往往通过拉取远程数据源中的数据,通过将数据集目录挂载到各个计算节点,训练任务直接从共享存储读取数据。但是在训练过程中,为了兼顾不同存储、不同数据类型文件、不同应用场景的需求,更侧重于通用性的研究,而导致出现千万级别规模的海量小文件数据集。在这种情况下,则需要进行高频率的meta、storage交互访问,以及高并发性和持续的i/o读取等,千万小文件,就需要超过千万次的元数据和数据流量交互,这种访问读取方式带来的开销较大且数据集拉取效率较低。


技术实现思路

1、为克服相关技术中存在的问题,本专利技术提供了一种数据处理方法、装置、电子设备以及存储介质。

2、第一方面,本专利技术提供了一种数据处理方法,应用于分布式缓存系统,所述方法包括:

3、基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将所述小文件数据对应的文件属性信息发送至扫描通道;

4、按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表;

5、从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储;所述数据列表与所述数据块一一对应,所述数据块中的小文件数据是基于所述数据块对应的数据列表中的文件属性信息确定的,所述聚合存储用于供所述分布式缓存系统中的计算节点基于所述聚合存储直接获取小文件数据。

6、可选地,所述预设扫描规则包括自动为所述扫描任务分配的扫描目录,所述扫描目录用于指示所述扫描任务所扫描的原始数据集的扫描范围。

7、可选地,所述扫描任务的数量为多个,所述扫描通道的数量为多个;所述基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将所述小文件数据对应的文件属性信息发送至扫描通道,包括:

8、基于多个扫描任务,按照各所述扫描任务对应的扫描目录,对所述原始数据集中的小文件数据进行扫描;不同扫描任务对应的扫描目录不同;

9、将各所述扫描任务扫描到的小文件数据对应的文件属性信息,基于交错分配规则发送至多个扫描通道中当前空闲的扫描通道。

10、可选地,所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表,包括:

11、基于聚合任务,获取所述扫描通道中的文件属性信息,并将所述文件属性信息依次聚合为指定大小的数据列表;不同数据列表中包含的文件属性信息不同。

12、可选地,所述方法还包括:

13、基于所述扫描通道每秒接收的数据量以及每秒发送的数据量,调整所述扫描通道的通道缓存大小以及所述聚合任务的数量。

14、可选地,在所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表之后,所述方法还包括:

15、将聚合后的所述多个数据列表依次放入批处理队列;

16、在所述批处理队列中的数据列表的当前数量每达到目标批处理数量的情况下,将所述批处理队列中的数据列表发送至聚合通道。

17、可选地,所述目标批处理数量是基于所述数据列表对应的指定大小以及单位数量个所述数据列表所包含的文件属性信息的数量确定的。

18、可选地,所述将所述批处理队列中的数据列表发送至聚合通道,包括:

19、将所述批处理队列中的数据列表,基于交错分配规则发送至当前空闲的聚合通道。

20、可选地,所述从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储,包括:

21、基于存储任务,依次获取所述存储任务对应的聚合通道中的数据列表;

22、针对任一所述数据列表,基于所述数据列表中的文件属性信息,从所述原始数据集中读取所述文件属性信息对应的目标小文件数据,并将所述目标小文件数据存入所述数据块;所述数据块中包含的目标小文件数据的第一数量与所述数据列表中包含的文件属性信息的第二数量相同;

23、将所述数据块存储至所述分布式缓存系统中的聚合存储。

24、可选地,所述方法还包括:

25、当任一所述聚合通道达到预设缓存阈值的情况下,基于所述聚合通道的单位接收数据量、单位处理数据量以及所述聚合通道对应的存储任务的平均处理时间,调整所述聚合通道的缓存通道大小以及对应的存储任务数量。

26、可选地,所述聚合存储是基于多个计算节点的存储空间得到的;所述将所述数据块存储至所述分布式缓存系统中的聚合存储,包括:

27、基于用户空间文件系统挂载指定路径至所述计算节点,所述指定路径用于供所述计算节点访问对应的聚合存储;

28、响应于写入指令,基于所述分布式缓存系统的目标接口,将所述数据块存储至所述多个计算节点的存储空间。

29、可选地,在所述从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储之后,所述方法还包括:

30、将所述数据块对应的元数据信息以及写入成功信息发送并存储至目标数据库。

31、可选地,在所述聚合存储接收到覆盖写指令的情况下,所述覆盖写指令用于指示将目标数据块写入所述聚合存储;所述方法还包括:

32、若所述原始数据集未发生变化,则更新所述目标数据库中存储的所述目标数据块对应的元数据信息。

33、可选地,所述方法还包括:

34、若所述原始数据集中第一小文件数据发生变化,则将所述聚合存储中存储的包含所述第一小文件数据的原始数据块替换为所述目标数据块,并将所述目标数据库中存储的原始数据块对应的第一元数据信息替换为所述目标数据块对应的第二元数据信息;

35、所述目标数据块中包括所述第一小文件数据。

36、可选地,所述文件属性信息包括所述小文件数据对应的文件名、所述小文件数据对应的文件大小、所述小文件数据对应的文件相对位置以及所述小文件数据对应的文件修改时间。

37、可选地,所述分布式缓存系统包括客户端;所述方法还包括:

38、基于所述客户端,将指定数据块预缓存至所述客户端对应的目标计算节点的本地内存;所述指定数据块用于供所述目标计算节点进行模型训练。

39、可选地,所述方法还包括:

40、在所述指定数据块中不存在所述目标计算节点指示的第一小文件数据的情况下,基于所述第一小本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,应用于分布式缓存系统,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设扫描规则包括自动为所述扫描任务分配的扫描目录,所述扫描目录用于指示所述扫描任务所扫描的原始数据集的扫描范围。

3.根据权利要求2所述的方法,其特征在于,所述扫描任务的数量为多个,所述扫描通道的数量为多个;所述基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将所述小文件数据对应的文件属性信息发送至扫描通道,包括:

4.根据权利要求1所述的方法,其特征在于,所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表之后,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述目标批处理数量是基于所述数据列表对应的指定大小以及单位数量个所述数据列表所包含的文件属性信息的数量确定的。

8.根据权利要求6所述的方法,其特征在于,所述将所述批处理队列中的数据列表发送至聚合通道,包括:

9.根据权利要求6所述的方法,其特征在于,所述从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储,包括:

10.根据权利要求9所述的方法,其特征在于,所述方法还包括:

11.根据权利要求9所述的方法,其特征在于,所述聚合存储是基于多个计算节点的存储空间得到的;所述将所述数据块存储至所述分布式缓存系统中的聚合存储,包括:

12.根据权利要求1所述的方法,其特征在于,在所述从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储之后,所述方法还包括:

13.根据权利要求12所述的方法,其特征在于,在所述聚合存储接收到覆盖写指令的情况下,所述覆盖写指令用于指示将目标数据块写入所述聚合存储;所述方法还包括:

14.根据权利要求13所述的方法,其特征在于,所述方法还包括:

15.根据权利要求1所述的方法,其特征在于,所述文件属性信息包括所述小文件数据对应的文件名、所述小文件数据对应的文件大小、所述小文件数据对应的文件相对位置以及所述小文件数据对应的文件修改时间。

16.根据权利要求1所述的方法,其特征在于,所述分布式缓存系统包括客户端;所述方法还包括:

17.根据权利要求16所述的方法,其特征在于,所述方法还包括:

18.一种数据处理装置,其特征在于,应用于分布式缓存系统,所述装置包括:

19.一种电子设备,其特征在于,包括:

20.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1-17中一个或多个所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,应用于分布式缓存系统,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设扫描规则包括自动为所述扫描任务分配的扫描目录,所述扫描目录用于指示所述扫描任务所扫描的原始数据集的扫描范围。

3.根据权利要求2所述的方法,其特征在于,所述扫描任务的数量为多个,所述扫描通道的数量为多个;所述基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将所述小文件数据对应的文件属性信息发送至扫描通道,包括:

4.根据权利要求1所述的方法,其特征在于,所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表之后,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述目标批处理数量是基于所述数据列表对应的指定大小以及单位数量个所述数据列表所包含的文件属性信息的数量确定的。

8.根据权利要求6所述的方法,其特征在于,所述将所述批处理队列中的数据列表发送至聚合通道,包括:

9.根据权利要求6所述的方法,其特征在于,所述从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储,包括:

10.根据权利要求9所...

【专利技术属性】
技术研发人员:王继玉陈培荆荣讯郑玉会
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1