一种复杂场景目标检测数据集构建方法及系统技术方案

技术编号:27842032 阅读:13 留言:0更新日期:2021-03-30 12:32
本发明专利技术公开了一种复杂场景目标检测数据集构建方法及系统。该方法包括:从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;基于所述数据集训练生成对抗网络;利用经训练的生成对抗网络的生成器构建多种场景的目标检测数据集。利用本发明专利技术构建的数据集,适用于视障人群生活场景的目标检测,解决了数据样本丰富和准确标定之间的矛盾。矛盾。矛盾。

【技术实现步骤摘要】
一种复杂场景目标检测数据集构建方法及系统


[0001]本专利技术涉及图像处理
,更具体地,涉及一种复杂场景目标检测数据集构建方法及系统。

技术介绍

[0002]在现有技术中,已经公开类似车载摄像头的视频KITTI跟踪数据集,或显示了各种不同视角的行人MOT Challenge数据集,或静态场景解析的ADE20K数据集都是用于无人驾驶的检测算法的benchmark(标准)数据集。目前并没有一套适用于视障人群生活场景解析的数据集,例如社区、学校和工作场所等。
[0003]目前大部分建立标准的训练和验证数据库主要是人工采集图像,并手动对图像的感兴趣的目标进行标定。但是由于视障人群生活场景图像的复杂性、光照变化不均匀、数据量大等自身特点,人工标注结果一方面工作量过于繁重,另一方面又受限于标注者自身经验主观性以及图像中本身就出现的人肉眼难以区分的对象。如果要在短期内构建标准的训练和验证数据库以用于模型训练,人工采集并标注的方法已无法满足研究和生产工作的需要。
[0004]基于深度学习的数据集构建方法成为近年来国内外非常热门的前沿领域之一。相对于传统的人工采集标注,计算机图像生成标注具有多样性、量化和低成本的优势,从而提高了图像标注的准确性和工作效率。现有技术往往是通过生成对抗网络(GAN)来生成图像,以扩展数据样本的多样性。但是生成的样本并不含有标准信息,无法适用于目标检测任务。
[0005]目前目标检测benchmark的构建还主要依靠人工采集和图像生成的方法来组建,后期再依靠人工标注。在针对视障人群构建复杂生活场景的数据集过程中,这种方法仍具有一定的缺陷,这主要是因为:
[0006]1)、图像的复杂性。由于生活场景的多样,图像中会出现遮挡,运动物体的畸变,低照度下的物体肉眼难以识别。
[0007]2)、图像的多样性。要使构建的数据集足以训练鲁棒性高的检测器需要丰富的、大量的数据,而在一定时期内搜集相关场景并拍摄的方法不足以涵盖各种情况。
[0008]3)、标注的工作量巨大。由于构建一个好的数据集需要大量的数据样本,要训练一个好的检测器,如何对上万张图像进行标注也是个非常大的技术难点。
[0009]上述技术问题制约了实际生产和研究的应用,据目前已发表的文献来看,尚没有一个系统的解决方案来构建适用于视障人群生活场景的目标检测,尤其是难以解决数据样本丰富和准确标定之间的矛盾。

技术实现思路

[0010]本专利技术的目的是克服上述现有技术的缺陷,提供一种复杂场景目标检测数据集构建方法及系统,基于生成对抗方法构建数据集,生成多种光照、不同场景下的图像数据,通过利用深度学习方法批量生成数据,使得构造数据集的工作效率大幅提升。
[0011]根据本专利技术的第一方面,提供一种复杂场景目标检测数据集构建方法。该方法包括以下步骤:
[0012]从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;
[0013]利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;
[0014]利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;
[0015]基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;
[0016]利用经训练的图像生成器构建多种场景的目标检测数据集。
[0017]根据本专利技术的第二方面,提供一种复杂场景目标检测数据集构建系统。该系统包括:
[0018]图像搜集模块:用于从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;
[0019]特征提取模块:用于利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;
[0020]图像筛选模块:用于利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;
[0021]对抗训练模块:用于基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;
[0022]图像标注模块:用带标注的数据集预训练网络,重点检测出视障人群感兴趣的目标;
[0023]数据集构建模块:用于利用经训练的图像生成器构建多种场景的目标检测数据集。
[0024]与现有技术相比,本专利技术的优点在于,通过计算机和信息技术对海量数据进行图像筛选,并生成风格(光照、场景)多样的图片;用半监督的目标检测器对图像进行标注,相比于人工筛选和采集标注,显著提高了工作效率,也提高了图像标注的质量。本专利技术对构建大样本的benchmark具有重要的生产、研究价值,显著降低了构建大量数据集的成本。
[0025]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0026]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0027]图1是根据本专利技术一个实施例的复杂场景目标检测数据集构建系统的框架图;
[0028]图2是根据本专利技术一个实施例的复杂场景目标检测数据集构建方法的流程图。
具体实施方式
[0029]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0030]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0031]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0032]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0033]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0034]参见图1所示,该实施例提供的复杂场景目标检测数据集构建系统包括图像搜集模块、图像筛选模块、特征提取模块、图像生成模块、图像判别模块和图像标注模块。
[0035]图像搜集模块用于从已有的公开数据集中重新筛选出一部分适用于视障人群生活场景的图像,构成初始数据集。例如,具体包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种复杂场景目标检测数据集构建方法,包括以下步骤:从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;利用经训练的图像生成器构建多种场景的目标检测数据集。2.根据权利要求1所述的方法,其中,利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据包括:将所述初始数据集输入到残差网络得到特征图;对于所述特征图利用金字塔结构提取不同尺度的多维深度特征数据。3.根据权利要求1所述的方法,其中,还包括:利用经训练的图像生成器获得的带标注的符合视障人群生活需求的感兴趣目标;对于部分未进行数据标注的图像中每个人的脸部标识或生活场景的标识,进行多目标实例标注;利用所有标注数据通过网络学习进行调整,获得最终的目标检测数据集。4.根据权利要求1所述的方法,其中,所述多维深度特征数据包括感兴趣区域图像块的颜色、形态学、纹理和空间分布特征。5.根据权利要求1所述的方法,其中,所述生成对抗网络训练过程的损失函数包含...

【专利技术属性】
技术研发人员:秦文健朱思航何佳慧曾光产银萍
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1