【技术实现步骤摘要】
图片处理系统、方法及相关装置和设备
本申请涉及计算机视觉
,尤其涉及一种图片处理系统、方法及相关装置和设备。
技术介绍
计算机视觉领域常常需要处理图片分类、识别、检测、分割等任务,为了完成这些任务通常需要利用大规模的训练数据集进行深度神经网络模型训练,基于深度神经网络模型完成这些任务。而现阶段业务方所采用的训练数据集大部分都是开源的训练数据集,若业务方针对特定场景收集训练数据集,就需要收集成千上万甚至上亿张图片,对这些图片进行预处理以生成满足模型训练要求的训练数据集,然而海量的图片数据积累对图片存储、图片预处理提出越来越高的要求。
技术实现思路
本申请实施例提供了一种图片处理系统、方法及相关装置和设备,基于分布式存储系统和分布式计算系统,对大规模的图片数据进行分布式存储和分布式预处理,以为模型训练提供满足训练要求的训练数据集。有鉴于此,本申请第一方面提供了一种图片处理系统,包括:客户端、分布式存储系统和分布式计算系统,所述分布式计算系统包括资源管理节点和多个计算节点;所述客户端,用于打散图片集并生成索引文件,基于所述索引文件将所述图片集切分成多个顺序文件并将其上传至所述分布式存储系统,根据存储地址向所述资源管理节点提交针对所述多个顺序文件的任务;所述资源管理节点,用于将所述任务划分成多个子任务,并将其分配给多个第一计算节点,所述第一计算节点为所述多个计算节点中的任一节点;所述第一计算节点,用于读取所述子任务中的图片数据并将其填入训练数据结构生成结构化数据,向所述资源管理节点发送所述结构化数据;所述资源管理节点,还用于根据所述任务中图片索引顺序,将所述任务 ...
【技术保护点】
1.一种图片处理系统,其特征在于,包括:客户端、分布式存储系统和分布式计算系统,所述分布式计算系统包括资源管理节点和多个计算节点;所述客户端,用于打散图片集并生成索引文件,基于所述索引文件将所述图片集切分成多个顺序文件并将其上传至所述分布式存储系统,根据存储地址向所述资源管理节点提交针对所述多个顺序文件的任务;所述资源管理节点,用于将所述任务划分成多个子任务,并将其分配给多个第一计算节点,所述第一计算节点为所述多个计算节点中的任一节点;所述第一计算节点,用于读取所述子任务中的图片数据并将其填入训练数据结构生成结构化数据,向所述资源管理节点发送所述结构化数据;所述资源管理节点,还用于根据所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,所述第二计算节点为所述多个计算节点中的任一节点;所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到训练数据,并将其按照顺序上传至所述分布式存储系统。
【技术特征摘要】
1.一种图片处理系统,其特征在于,包括:客户端、分布式存储系统和分布式计算系统,所述分布式计算系统包括资源管理节点和多个计算节点;所述客户端,用于打散图片集并生成索引文件,基于所述索引文件将所述图片集切分成多个顺序文件并将其上传至所述分布式存储系统,根据存储地址向所述资源管理节点提交针对所述多个顺序文件的任务;所述资源管理节点,用于将所述任务划分成多个子任务,并将其分配给多个第一计算节点,所述第一计算节点为所述多个计算节点中的任一节点;所述第一计算节点,用于读取所述子任务中的图片数据并将其填入训练数据结构生成结构化数据,向所述资源管理节点发送所述结构化数据;所述资源管理节点,还用于根据所述任务中图片索引顺序,将所述任务对应的所述结构化数据分配给多个第二计算节点,所述第二计算节点为所述多个计算节点中的任一节点;所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到训练数据,并将其按照顺序上传至所述分布式存储系统。2.根据权利要求1所述的图片处理系统,其特征在于,所述资源管理节点,还用于根据所述任务中图片索引顺序,采样生成分割点,根据所述分割点确定多个有序的全局区间段,按照全局区间段的顺序向多个有序的第二计算节点分配对应的所述结构化数据。3.根据权利要求1所述的图片处理系统,其特征在于,所述分布式存储系统包括名称节点和多个数据节点,所述名称节点用于管理数据节点;所述数据节点用于存储数据;所述名称节点和所述资源管理节点部署在第一服务器中;所述多个数据节点部署在除去第一服务器之外的多个服务器中;所述多个计算节点部署在已部署有数据节点的多个服务器中。4.根据权利要求1所述的图片处理系统,其特征在于,所述分布式存储系统为分布式文件系统;则所述客户端还用于:按照所述分布式文件系统的块大小,基于所述索引文件将所述图片集依次切分成所述多个顺序文件,每个顺序文件的大小等于所述分布式文件系统的块大小。5.根据权利要求1所述的图片处理系统,其特征在于,所述第二计算节点,用于针对所述结构化数据进行图片预处理操作得到对应的训练数据,包括:所述第二计算节点,用于将所述结构化数据中的图片数据解码成像素格式,将像素格式的图片数据以及图片标签作为训练数据存储成二进制文件。6.根据权利要求1所述的图片处理系统,其特征在于,所述分布式计算系统采用映射归约MapReduce模型;所述第一计算节点具体用于调用映射map函数根据所述图片数据生成所述结构化数据;所述第二计算节点具体用于调用归约reduce函数对所述结构化数据进行所述图片预处理操作。7.根据权利要求1所述的图片处理系统,其特征在于,所述资源管理节点还用于通过以下方式分配所述子任务:针对所述任务,解压并获取所述多个顺序文件得到图片数据,将所述多个图片数据按照分片大小划分成多个分片,将每个分片作为一个子任务分配给所述第一计算节点,所述分片的个数小于所述顺序文件的个数。8.根据权利要求1所述的图片处理系统,其特征在于,所述第二计算节点还用于在进行图片预处理时,调用图形处理器对应的资源调度器进行图形处理器加速处理。9.一种图片处理方法,其特征在于,包括:打散图片集并生成索引文件;基于所述索引文...
【专利技术属性】
技术研发人员:林少彬,陈卫东,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。