当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于离线数据增强的固废数据集生成方法技术

技术编号:31489020 阅读:17 留言:0更新日期:2021-12-18 12:25
一种基于离线数据增强的固废数据集生成方法,具体包括:手动标注第一固废数据集A1;对第一固废数据集A1进行离线数据增强生成第二固废数据集A2,合并第一固废数据集A1和第二固废数据集A2,形成合并固废数据集;使用深度学习模型对合并固废数据集进行训练;使用训练好的深度学习模型对未标注的固废数据集D进行预测;通过查询函数找出深度学习模型预测不准确的图像集,并进行手动标注得到第三固废数据集B1;对第三固废数据集B1进行离线数据增强生成第四固废数据集B2。本发明专利技术提出的方法可以生成大量固废数据集,快速有效地构扩充固废数据集,从而有助于深度学习模型的训练,进一步提升固废识别的准确率。升固废识别的准确率。升固废识别的准确率。

【技术实现步骤摘要】
一种基于离线数据增强的固废数据集生成方法


[0001]本专利技术涉及深度学习及固废识别领域,特别涉及基于离线数据增强的固废固废数据集生成方法。

技术介绍

[0002]随着近年来的快速发展,深度学习在越来越多的领域发挥作用,其中就包括固废检测领域。为了让深度学习能够在固废上取得良好的效果,企业往往需要获得高质量的固废数据集。对于企业来说,获取图像数据是很容易的。只要搭建好检测平台,通过工业相机的连续拍摄仅需一天就能获得上万张图像。然而,对于用于检测的深度学习网络模型来说,用于模型训练的固废数据集不是单一的图像数据,而是带有标签的图像。为了获取高质量的标签,现阶段常见的方法是请专业的人员对每张图像进行仔细标注,而繁琐的标注过程不仅会耗费大量人力,而且需要长时间的标注才能得到所需数量要求的固废数据集。
[0003]此外,由于背景的变化、光照的影响等等,使用某一场景下标注好的固废数据集进行训练的深度学习模型,换个场景就可能检测效果不好,这往往会导致工程师需要重新采集大量的图像并进行长时间的标注。如果仅是采用人工标注模式来得到固废数据集,会延长项目的研发周期,从而拖慢生产进程。

技术实现思路

[0004]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种基于离线数据增强的固废数据集生成方法,能够快速有效地扩充标注的固废数据集,代替人工标注,节省时间人力,并提高深度学习模型检测的性能,进一步提升固废识别的准确率。
[0005]本专利技术采用如下技术方案:
[0006]一种基于离线数据增强的固废数据集生成方法,方法具体步骤如下:
[0007]手动标注第一固废数据集A1;
[0008]对第一固废数据集A1进行离线数据增强生成第二固废数据集A2,合并第一固废数据集A1和第二固废数据集A2,形成合并固废数据集;
[0009]使用深度学习模型对合并固废数据集进行训练;
[0010]使用训练好的深度学习模型对未标注的固废数据集D进行预测;
[0011]通过查询函数找出深度学习模型预测不准确的图像集,并进行手动标注得到第三固废数据集B1;
[0012]对第三固废数据集B1进行离线数据增强生成第四固废数据集B2。
[0013]具体地,所述的深度学习模型包括但不限于实例分割模型和目标检测模型。
[0014]具体地,所述的固废数据集离线数据增强,包括如下步骤:
[0015]读取需要进行离线数据增强的固废数据集的标签,分离出固废数据集中每个物体以及物体的标签信息;
[0016]将分离出的物体进行几何变换、改变图像亮度与图像对比度,得到增强的物体以
及标签信息;
[0017]随机将N个增强之后的物体粘贴到一个图像模板上,同时将该N个物体的标签信息存入该模板对应的标签文件当中,N为整数。
[0018]具体地,所述标签信息包括物体的轮廓信息以及物体的类别信息。
[0019]具体地,所述分离出固废数据集中每个物体以及物体的标签信息固废数据集有如下步骤:
[0020]读取图像的标签文件,所述标签文件为json格式;
[0021]根据物体的轮廓点集生成包围每个物体的矩形框、x横坐标,y纵坐标、以及w宽、h高;
[0022]将物体的轮廓点集减去x横坐标、y纵坐标得到分离好的物体轮廓标签;
[0023]根据x横坐标、y纵坐标、w宽、h高以及物体的轮廓点集,将图像中的物体裁剪出来。
[0024]具体地,所述的图像模板随机选择以下两种模板:纯传送带背景没有固废、含固废传送带背景。
[0025]具体地,所述使用深度学习模型对合并固废数据集进行训练,包括以下步骤:
[0026]对需要进行训练的固废数据集进行线上数据增强,包括但不限于:裁剪、水平翻转、竖直翻转、旋转、改变图像亮度和对比度和部分像素置零;
[0027]使用SGD优化器进行训练,使用的学习率策略为带预热的余弦退火。
[0028]具体地,所述通过查询函数找出深度学习模型预测不准确的图像集,包括如下步骤:
[0029]使用深度学习模型对未标注固废数据集D中的每张图像进行检测,得到每个物体的类别和置信度;
[0030]对每张图像中所有的物体的置信度进行求平均得到一个分数;
[0031]将所有分数按从低到高进行排序,取前M个分数得到模型预测不准确的的M张图像,M为正整数
[0032]由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:
[0033](1)本专利技术提出的一种基于离线数据增强的固废数据集生成方法,首先手动标注第一固废数据集A1;对第一固废数据集A1进行离线数据增强生成第二固废数据集A2,合并第一固废数据集A1和第二固废数据集A2,形成合并固废数据集;使用深度学习模型对合并固废数据集进行训练;使用训练好的深度学习模型对未标注的固废数据集D进行预测;通过查询函数找出深度学习模型预测不准确的图像集,并进行手动标注得到第三固废数据集B1;对第三固废数据集B1进行离线数据增强生成第四固废数据集B2,本专利技术通过离线数据增强的方式,可以自动生成大量具有丰富信息的固废数据集用于深度学习模型的训练。
[0034](2)本专利技术通过查询函数的筛选出模型检测效果不准确的图像进行再一次标注,然后再结合离线数据增强该类固废数据集的数量,针对性强,能够在模型迭代中快速提高模型的检测效果。
附图说明
[0035]图1为本专利技术实施例固废数据集的图像示例;
[0036]图2为本专利技术实施例提供的基于离线数据增强的固废数据集生成方法流程图;、
[0037]图3为本专利技术实施例提供的手动标注的含标签的图像示例;
[0038]图4为本专利技术实施例提供的离线数据增强的方法流程图;
[0039]图5为本专利技术实施例提供的分离固废数据集中图像物体的方法流程图;
[0040]图6为本专利技术实施例提供的利用深度学习模型预测得到的结果示例。
具体实施方式
[0041]以下通过具体实施方式对本专利技术作进一步的描述。
[0042]一种基于离线数据增强的固废数据集生成方法,关于固废数据集的图像获取具体为,背景为固定的传送带,该图像集由固定于传送带上方的工业相机由上向下拍摄得到,固废数据集的图像示例如图1所示。
[0043]一种基于离线数据增强的固废数据集生成方法,具体步骤参见图2所示:
[0044]S101:手动标注第一固废数据集A1,该固废数据集的图像为人为挑选,使得标注的各个种类的数量尽可能均衡。其中,该固废数据集的种类为不同颜色的聚丙烯(pp)、聚对苯二甲酸乙二醇酯(pet)以及高密度聚乙烯(hdpe)。手动标注图像得到的标签如图3所示;
[0045]S102:对第一固废数据集A1进行离线数据增强生成新第二固废数据集A2,合并第一数据集A1和第二数据集A2,形成合并数据集;
[0046]对第一固废数据集A1进行离线数据增本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线数据增强的固废数据集生成方法,其特征在于,方法具体步骤如下:手动标注第一固废数据集A1;对第一固废数据集A1进行离线数据增强生成第二固废数据集A2,合并第一固废数据集A1和第二固废数据集A2,形成合并固废数据集;使用深度学习模型对合并固废数据集进行训练;使用训练好的深度学习模型对未标注的固废数据集D进行预测;通过查询函数找出深度学习模型预测不准确的图像集,并进行手动标注得到第三固废数据集B1;对第三固废数据集B1进行离线数据增强生成第四固废数据集B2。2.根据权利要求1所述的一种基于离线数据增强的固废数据集生成方法,其特征在于,所述的深度学习模型包括但不限于实例分割模型和目标检测模型。3.根据权利要求1所述的一种基于离线数据增强的固废固废数据集生成方法,其特征在于,所述的固废数据集离线数据增强,包括如下步骤:读取需要进行离线数据增强的固废数据集的标签,分离出固废数据集中每个物体以及物体的标签信息;将分离出的物体进行几何变换、改变图像亮度与图像对比度,得到增强的物体以及标签信息;随机将N个增强之后的物体粘贴到一个图像模板上,同时将该N个物体的标签信息存入该模板对应的标签文件当中,N为整数。4.根据权利要求2所述的一种基于离线数据增强的固废数据集生成方法,固废数据集其特征在于,所述标签信息包括物体的轮廓信息以及物体的类别信息。5.根据权利要求2所述的一种基于离线数据增强的固废数据集生成方法固废数据集,...

【专利技术属性】
技术研发人员:李建涛杨建红计天晨房怀英林柏宏杨宇轩杨天成陈伟鑫
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1