图片处理系统、方法及相关装置和设备制造方法及图纸

技术编号:21431637 阅读:28 留言:0更新日期:2019-06-22 11:45
本申请实施例公开了一种图片处理系统、方法及相关装置和设备,其中,图片处理系统利用分布式存储系统存储大规模图片数据,利用分布式计算系统对所存储的大规模图片数据进行预处理,生成用于训练神经网络模型的训练数据,进而再利用分布式存储系统存储所生成的训练数据,满足了对于大规模图片数据的存储要求和处理要求;此外,为了保证所生成的训练数据集满足深度神经网络模型的训练需求,系统中的客户端会对图片集进行打散处理,并且在利用分布式计算系统对图片数据做预处理,以及在利用分布式存储系统存储图片数据的过程中,均会采取特定的处理方式,保证所获得的用于训练神经网络模型的训练数据集中的图片数据是随机打散的。

【技术实现步骤摘要】
图片处理系统、方法及相关装置和设备
本申请涉及计算机视觉
,尤其涉及一种图片处理系统、方法及相关装置和设备。
技术介绍
计算机视觉领域常常需要处理图片分类、识别、检测、分割等任务,为了完成这些任务通常需要利用大规模的训练数据集进行深度神经网络模型训练,基于深度神经网络模型完成这些任务。而现阶段业务方所采用的训练数据集大部分都是开源的训练数据集,若业务方针对特定场景收集训练数据集,就需要收集成千上万甚至上亿张图片,对这些图片进行预处理以生成满足模型训练要求的训练数据集,然而海量的图片数据积累对图片存储、图片预处理提出越来越高的要求。
技术实现思路
本申请实施例提供了一种图片处理系统、方法及相关装置和设备,基于分布式存储系统和分布式计算系统,对大规模的图片数据进行分布式存储和分布式预处理,以为模型训练提供满足训练要求的训练数据集。有鉴于此,本申请第一方面提供了一种图片处理系统,包括:客户端、分布式存储系统和分布式计算系统,所述分布式计算系统包括资源管理节点和多个计算节点;所述客户端,用于打散图片集并生成索引文件,基于所述索引文件将所述图片集切分成多个顺序文件并将其上传至所述分布式存储系统,根据存储地址向所述资源管理节点提交针对所述多个顺序文件的任务;所述资源管理节点,用于将所述任务划分成多个子任务,并将其分配给多个第一计算节点,所述第一计算节点为所述多个计算节点中的任一节点;所述第一计算节点,用于读取所述子任务中的图片数据并将其填入训练数据结构生成结构化数据,向所述资源管理节点发送所述结构化数据;所述资源管理节点,还用于根据所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,所述第二计算节点为所述多个计算节点中的任一节点;所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到训练数据,并将其按照顺序上传至所述分布式存储系统。本申请第二方面提供了一种图片处理方法,应用于客户端,包括:打散图片集并生成索引文件;基于所述索引文件将所述图片集切分成多个顺序文件;将所述多个顺序文件上传至所述分布式存储系统,得到所述多个顺序文件对应的存储地址;根据所述存储地址向所述资源管理节点提交针对所述多个顺序文件的任务,以请求分布式计算系统对所述多个顺序文件进行并行地图片预处理操作得到训练数据上传至所述分布式存储系统,使得所述分布式存储系统中存储的训练数据集的训练数据顺序与所述索引文件顺序相同。本申请第三方面提供了一种图片处理方法,应用于资源管理节点,包括:接收针对多个顺序文件的任务;从分布式存储系统中读取所述任务对应的多个顺序文件,将所述任务划分成多个子任务,将所述多个子任务分配给多个第一计算节点,所述第一计算节点为分布式计算系统中的任一计算节点;接收所述第一计算节点返回的针对所述任务的结构化数据;按照所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,以控制所述第二计算节点针对所述结构化数据进行图片预处理操作得到训练数据,并将其按照顺序上传至所述分布式存储系统,所述第二计算节点为所述分布式计算系统中的任一计算节点。本申请第四方面提供了一种图片处理装置,包括:全局打散模块,用于打散图片集并生成索引文件;切分模块,用于基于所述索引文件将所述图片集切分成多个顺序文件;存储模块,用于将所述多个顺序文件上传至分布式存储系统得到所述多个顺序文件的存储地址;任务提交模块,用于根据所述存储地址向所述资源管理节点提交针对所述多个顺序文件的任务,以请求分布式计算系统对所述多个顺序文件进行并行地图片预处理操作得到训练数据上传至所述分布式存储系统,使得所述分布式存储系统中存储的训练数据集的训练数据顺序与所述索引文件顺序相同。本申请第五方面提供了一种图片处理装置,包括:第一接收模块,用于接收针对多个顺序文件的任务;第一分配模块,用于从分布式存储系统中读取所述任务对应的多个顺序文件,将所述任务划分成多个子任务,将所述多个子任务分配给多个第一计算节点,所述第一计算节点为分布式计算系统中的任一计算节点;第二接收模块,用于接收所述第一计算节点返回的针对所述任务的结构化数据;第二分配模块,用于按照所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,以控制所述第二计算节点针对所述结构化数据进行图片预处理操作得到对应的训练数据,并将其按照顺序上传至所述分布式存储系统,所述第二计算节点为分布式存储计算系统中的任一计算节点。本申请第六方面提供了一种设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第二方面或第三方面提供的任一项所述的图片处理方法。本申请第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第二方面或第三方面提供的任一项所述的图片处理方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供了一种图片处理系统,该系统利用分布式存储系统存储大规模图片数据,利用分布式计算系统对所存储的大规模图片数据进行预处理,生成用于训练神经网络模型的训练数据,进而再利用分布式存储系统存储所生成的训练数据;在需要针对特定场景收集训练数据集的应用场景中,上述图片处理系统基于分布式存储系统为海量图片数据提供可靠的存储途径,并且基于分布式计算系统保证对图片数据进行高效地预处理。此外,利用图片数据训练神经网络模型时,为了保证训练得到的神经网络模型具备较好的性能,通常需要保证用于训练神经网络模型的图片数据是随机打散的,基于此,在本申请实施例提供的图片处理系统中,客户端会对图片集进行打散处理,并且在利用分布式计算系统对图片数据做预处理,以及在利用分布式存储系统存储图片数据的过程中,均会采取特定的处理方式保证所获得的用于训练神经网络模型的训练数据集中的图片数据是打散的,即保证所生成的训练数据集满足神经网络模型的训练需求。附图说明图1为本申请实施例提供的图片处理系统的架构示意图;图2为本申请实施例提供的子任务划分操作的架构示意图;图3为本申请实施例提供的Hadoop架构的图片处理系统的架构示意图;图4为本申请实施例提供的客户端侧的图片处理方法的流程示意图;图5为本申请实施例提供的资源管理节点侧的图片处理方法的流程示意图;图6为本申请实施例提供的客户端侧的图片处理装置的结构示意图;图7为本申请实施例提供的资源管理节点侧的图片处理装置的结构示意图;图8为本申请实施例提供的一种设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述本文档来自技高网
...

【技术保护点】
1.一种图片处理系统,其特征在于,包括:客户端、分布式存储系统和分布式计算系统,所述分布式计算系统包括资源管理节点和多个计算节点;所述客户端,用于打散图片集并生成索引文件,基于所述索引文件将所述图片集切分成多个顺序文件并将其上传至所述分布式存储系统,根据存储地址向所述资源管理节点提交针对所述多个顺序文件的任务;所述资源管理节点,用于将所述任务划分成多个子任务,并将其分配给多个第一计算节点,所述第一计算节点为所述多个计算节点中的任一节点;所述第一计算节点,用于读取所述子任务中的图片数据并将其填入训练数据结构生成结构化数据,向所述资源管理节点发送所述结构化数据;所述资源管理节点,还用于根据所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,所述第二计算节点为所述多个计算节点中的任一节点;所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到训练数据,并将其按照顺序上传至所述分布式存储系统。

【技术特征摘要】
1.一种图片处理系统,其特征在于,包括:客户端、分布式存储系统和分布式计算系统,所述分布式计算系统包括资源管理节点和多个计算节点;所述客户端,用于打散图片集并生成索引文件,基于所述索引文件将所述图片集切分成多个顺序文件并将其上传至所述分布式存储系统,根据存储地址向所述资源管理节点提交针对所述多个顺序文件的任务;所述资源管理节点,用于将所述任务划分成多个子任务,并将其分配给多个第一计算节点,所述第一计算节点为所述多个计算节点中的任一节点;所述第一计算节点,用于读取所述子任务中的图片数据并将其填入训练数据结构生成结构化数据,向所述资源管理节点发送所述结构化数据;所述资源管理节点,还用于根据所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,所述第二计算节点为所述多个计算节点中的任一节点;所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到训练数据,并将其按照顺序上传至所述分布式存储系统。2.根据权利要求1所述的图片处理系统,其特征在于,所述资源管理节点,还用于根据所述任务中图片索引顺序,采样生成分割点,根据所述分割点确定多个有序的全局区间段,按照全局区间段的顺序向多个有序的第二计算节点分配对应的所述结构化数据。3.根据权利要求1所述的图片处理系统,其特征在于,所述分布式存储系统包括名称节点和多个数据节点,所述名称节点用于管理数据节点;所述数据节点用于存储数据;所述名称节点和所述资源管理节点部署在第一服务器中;所述多个数据节点部署在除去第一服务器之外的多个服务器中;所述多个计算节点部署在已部署有数据节点的多个服务器中。4.根据权利要求1所述的图片处理系统,其特征在于,所述分布式存储系统为分布式文件系统;则所述客户端还用于:按照所述分布式文件系统的块大小,基于所述索引文件将所述图片集依次切分成所述多个顺序文件,每个顺序文件的大小等于所述分布式文件系统的块大小。5.根据权利要求1所述的图片处理系统,其特征在于,所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到对应的训练数据,包括:所述第二计算节点,用于将所述结构化数据中的图片数据解码成像素格式,将像素格式的图片数据以及图片标签作为训练数据存储成二进制文件。6.根据权利要求1所述的图片处理系统,其特征在于,所述分布式计算系统采用映射归约MapReduce模型;所述第一计算节点具体用于调用映射map函数根据所述图片数据生成所述结构化数据;所述第二计算节点具体用于调用归约reduce函数对所述结构化数据进行所述图片预处理操作。7.根据权利要求1所述的图片处理系统,其特征在于,所述资源管理节点还用于通过以下方式分配所述子任务:针对所述任务,解压并获取所述多个顺序文件得到图片数据,将所述多个图片数据按照分片大小划分成多个分片,将每个分片作为一个子任务分配给所述第一计算节点,所述分片的个数小于所述顺序文件的个数。8.根据权利要求1所述的图片处理系统,其特征在于,所述第二计算节点还用于在进行图片预处理时,调用图形处理器对应的资源调度器进行图形处理器加速处理。9.一种图片处理方法,其特征在于,包括:打散图片集并生成索引文件;基于所述索引文...

【专利技术属性】
技术研发人员:林少彬陈卫东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1