一种基于OSS数据集在线预处理方法及系统技术方案

技术编号:35591392 阅读:20 留言:0更新日期:2022-11-16 15:08
本发明专利技术提供一种基于OSS数据集在线预处理方法及系统,方法包括:接收应用服务器的数据请求,所述数据请求中携带有配置参数;根据所述配置参数,从OSS存储系统中下载指定数据集中的所有图片;基于所述配置参数,将指定数据集中的所有图片的原始尺寸转换为目标尺寸,以及将所有图片的原始格式转换为目标格式;将尺寸和格式转换后的指定数据集存储到应用服务器。本发明专利技术在不用对数据集进行单独的尺寸转换处理和不产生新的独立数据集的情况下,结合OSS对数据集进行在线预处理,实现了在数据集应用环境下,通过预处理参数控制,在数据集下载过程中完成预处理过程,下载完成即所得要求尺寸的数据集。尺寸的数据集。尺寸的数据集。

【技术实现步骤摘要】
一种基于OSS数据集在线预处理方法及系统


[0001]本专利技术涉及数据集处理领域,更具体地,涉及一种基于OSS数据集在线预处理方法及系统。

技术介绍

[0002]目前AI模型开发训练过程中需要根据算法要求和训练计划对各种数据集做对应的预处理。图片类型的数据集预处理中,对于图片尺寸的调整设定是一项常规的预处理方式,原始数据集中存放的图片尺寸大小不一,常见图片尺寸有8K,4K,2K和1080P,以及不规则尺寸图片。
[0003]在目标检测类算法的开发训练过程中,会对比几组不同固定尺寸的图片来确认最优的训练速度和识别率。常规的预处理转换过程中需要将数据集从数据仓库下载到本地,下载到本地后根据训练要求将数据集内的图片转换成几个指定标准尺寸的数据集,然后将转换后的几个新数据集发送到指定的训练服务器(应用服务器)可用的存储系统中。
[0004]在尺寸转换的过程中,会产生新的数据集需要独立管理。新数据集在使用时也需要转存到指定的应用服务器上。对于不同尺寸要求的数据集会存在不同版本的数据集需要单独管理存储,如果图片的数量非常庞大时,对存储空间的要求也非常高。

技术实现思路

[0005]本专利技术针对现有技术中存在的技术问题,提供一种基于OSS数据集在线预处理方法及系统,克服了离线处理需要的大量的存储空间。
[0006]根据本专利技术的第一方面,提供了一种基于OSS数据集在线预处理方法,包括:
[0007]接收应用服务器的数据请求,所述数据请求中携带有配置参数;
[0008]根据所述配置参数,从OSS存储系统中下载指定数据集中的所有图片;
[0009]基于所述配置参数,将指定数据集中的所有图片的原始尺寸转换为目标尺寸,以及将所有图片的原始格式转换为目标格式;
[0010]将尺寸和格式转换后的指定数据集存储到应用服务器。
[0011]在上述技术方案的基础上,本专利技术还可以作出如下改进。
[0012]可选的,所述接收应用服务器的数据请求,所述数据请求中携带有配置参数,包括:
[0013]将原始数据集解压缩后上传到OSS存储系统指定的BUCKET桶中,所述原始数据集中包括多张图片。
[0014]可选的,所述配置参数包括OSS链接地址、OSS账号授权信息、BUCKET桶名称、数据集路径、图片目标尺寸、图片目标格式、标注文件格式和下载文件存储路径。
[0015]可选的,根据所述配置参数,从OSS存储系统中下载指定数据集中的所有图片,包括:
[0016]运行在线预处理程序,根据所述OSS链接地址链接到指定数据集,读取OSS存储系
统的指定数据集的文件列表信息,所述文件列表信息包括指定数据集中所有文件的名称和类型信息;
[0017]解析所述文件列表信息获取指定数据集中的所有图片;
[0018]根据所述文件列表信息中的所有文件的名称从OSS存储系统的指定数据集中获取每一张图片的图片原始信息,所述图片原始信息包括图片原始尺寸、图片原始格式、图片原始路径和图片原始数据;
[0019]基于每一张图片的图片原始尺寸、图片原始格式和所述配置参数中的图片目标尺寸和图片目标格式,对指定数据集中的每一张图片进行尺寸和格式的转换,将转换后的所有图片上传至应用服务器。
[0020]可选的,通过如下方式对指定数据集中的每一张图片进行尺寸转换:
[0021]根据每一张图片的图片原始尺寸和图片目标尺寸,计算出长宽转换比例;
[0022]基于所述长宽转换比例,将每一张图片从原始尺寸转换到目标尺寸。
[0023]可选的,所述文件列表信息中还包括指定数据集的文件结构信息,所述文件结构信息包括每一张图片的原始信息路径,还包括:
[0024]将尺寸和格式转换后的每一张图片按照原始信息路径进行存储,以使指定数据集中转换后的所有图片的文件结构信息保持不变。
[0025]可选的,还包括:
[0026]根据所述图片原始信息获取对应标注文件的原始信息,根据每一张图片的长宽转换比例对所述标注文件中的原始信息进行调整,将生成的新标注文件存储到指定存储地址。
[0027]可选的,所述基于所述配置参数,将指定数据集中的所有图片的原始尺寸转换为目标尺寸,以及将所有图片的原始格式转换为目标格式,还包括:
[0028]根据指定数据集中图片总量动态展示当前在线预处理的进度信息和状态,所述进度信息包括已处理图片数量、总图片数量、处理速度和预期剩余完成时间。
[0029]根据本专利技术的第二方面,提供一种基于OSS数据集在线预处理系统,包括:
[0030]接收模块,用于接收应用服务器的数据请求,所述数据请求中携带有配置参数;
[0031]下载模块,用于根据所述配置参数,从OSS存储系统中下载指定数据集中的所有图片;
[0032]转换模块,用于基于所述配置参数,将指定数据集中的所有图片的原始尺寸转换为目标尺寸,以及将所有图片的原始格式转换为目标格式;
[0033]存储模块,用于将尺寸和格式转换后的指定数据集存储到应用服务器。
[0034]根据本专利技术的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于OSS数据集在线预处理方法的步骤。
[0035]根据本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于OSS数据集在线预处理方法的步骤。
[0036]本专利技术提供的一种基于OSS数据集在线预处理方法和系统,在不用对数据集进行单独的尺寸转换处理和不产生新的独立数据集的情况下,结合OSS对数据集进行在线预处
理,实现了在数据集应用环境下,通过预处理参数控制,在数据集下载过程中完成预处理过程,下载完成即所得要求尺寸的数据集。
附图说明
[0037]图1为本专利技术提供的一种基于OSS数据集在线预处理方法流程图;
[0038]图2为基于OSS数据集在线预处理方法的整体流程的示意图;
[0039]图3为本专利技术提供的一种基于OSS数据集在线预处理系统的结构示意图;
[0040]图4为本专利技术提供的一种可能的电子设备的硬件结构示意图;
[0041]图5为本专利技术提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
[0042]下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。
[0043]对于现行的常规数据集预处理过程,图片尺寸转换环节需要独立的处理过程,产生的新数据集也需要找地方存放管理,新数据级应用时再下载到目标的应用服务器中。
[0044]本专利技术提供了一种在线预处理方法,在不用对数据集进行单独的尺寸转换处理和不产生新数据集的情况下,结合OSS存储系统对数据集进行在线预处理,实现了通过预处理参数控制,在数据集从OSS下载本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OSS数据集在线预处理方法,其特征在于,包括:接收应用服务器的数据请求,所述数据请求中携带有配置参数;根据所述配置参数,从OSS存储系统中下载指定数据集中的所有图片;基于所述配置参数,将指定数据集中的所有图片的原始尺寸转换为目标尺寸,以及将所有图片的原始格式转换为目标格式;将尺寸和格式转换后的指定数据集存储到应用服务器。2.根据权利要求1所述的在线预处理方法,其特征在于,所述接收应用服务器的数据请求,所述数据请求中携带有配置参数,包括:将原始数据集解压缩后上传到OSS存储系统指定的BUCKET桶中,所述原始数据集中包括多张图片。3.根据权利要求1或2所述的在线预处理方法,其特征在于,所述配置参数包括OSS链接地址、OSS账号授权信息、BUCKET桶名称、数据集路径、图片目标尺寸、图片目标格式、标注文件格式和下载文件存储路径。4.根据权利要求3所述的在线预处理方法,其特征在于,根据所述配置参数,从OSS存储系统中下载指定数据集中的所有图片,包括:运行在线预处理程序,根据所述OSS链接地址链接到指定数据集,读取OSS存储系统的指定数据集的文件列表信息,所述文件列表信息包括指定数据集中所有文件的名称和类型信息;解析所述文件列表信息获取指定数据集中的所有图片;根据所述文件列表信息中的所有文件的名称从OSS存储系统的指定数据集中获取每一张图片的图片原始信息,所述图片原始信息包括图片原始尺寸、图片原始格式、图片原始路径和图片原始数据;基于每一张图片的图片原始尺寸、图片原始格式和所述配置参数中的图片目标尺寸和图片目标格式,对指定数据集中的每一张图片进行尺寸和格式的转换,将转换后的所有图片上传至应用服务器。5.根据权利要求4所述的在线预处理方法,其特征在于,通过如下方式对指定数据集中的每一张图片进行尺寸转换:...

【专利技术属性】
技术研发人员:李森林李诒雯郝江波周明李鑫
申请(专利权)人:武汉光庭信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1