基于验证图片的多目标数据训练集生成方法技术

技术编号:37458281 阅读:10 留言:0更新日期:2023-05-06 09:30
本发明专利技术公开了基于验证图片的多目标数据训练集生成方法,采用经过预训练的目标检测网络模型,对预处理后的未标注图片进行识别,按照识别结果分割出待检测目标区域,对于未标注图片的其余部分根据预设分割策略进行分割,得到分割后的未知分割图片;将根据图片推送策略推送的未知分割图片和已知分割图片进行拼接,生成向用户推送的验证图片;最后在获得用户对验证图片中未知分割图片和已知分割图片的标注结果后,实现对未标注图片的标注,放入训练集。本发明专利技术可以解决训练集人工制作过程中的低效、工作量大的困难,能为模型训练更快速的提供相应的训练集,为人工智能、机器学习领域的进一步发展提供了帮助。进一步发展提供了帮助。进一步发展提供了帮助。

【技术实现步骤摘要】
基于验证图片的多目标数据训练集生成方法


[0001]本申请属于神经网络训练
,尤其涉及一种基于验证图片的多目标数据训练集生成方法。

技术介绍

[0002]近年来,随着机器学习、人工智能技术的广泛应用与发展,自动化图像识别也随之兴起,越来越多的行业运用图像识别技术代替传统的人工识别模式,包括人脸识别、物体识别、文字识别等,精准、可靠、高效的识别模型正被大众所认可,逐步取代人力成为大势所趋。神经网络模型能够通过学习图片的局部特征,能在图片内包含有多个目标时精确的定位其在图片中的位置,实现目标检测功能。在目标检测模型训练过程中数据集是研究与验证的基础,足量的数据集能够提升模型的识别能力,提取并分析更多的图像特征。然而现在公开的深度学习数据集类别较少,例如MNIST、ImageNet、Open Images、SVHN、CIFAR

10等深度学习开放数据集,虽拥有数量足够多的训练图片,但所涵盖的类别仅为文字提取、物品检测等,通用性较强但泛化能力较差,且图片内大多只包含单一目标,无法训练出多目标的检测模型,对于目标检测模型的训练难以起到足够的数据支撑作用。因此,在众多其他领域内的研究人员仍需花费大量的时间制作相关数据集来满足模型训练的需求。人工标注数据标签不仅工作量巨大,且工作效率较为低下,一定程度上影响了人工智能在交叉领域内的发展。

技术实现思路

[0003]本申请的目的是提供一种基于验证图片的多目标数据训练集生成方法,以克服多目标检测模型训练集标注工作低效,数据无法大规模泛化的问题。
[0004]为了实现上述目的,本申请技术方案如下:
[0005]一种基于验证图片的多目标数据训练集生成方法,包括:
[0006]将未标注图片进行预处理,剔除掉图片中的背景噪声;
[0007]采用经过预训练的目标检测网络模型,对预处理后的未标注图片进行识别,按照识别结果分割出待检测目标区域,对于未标注图片的其余部分根据预设分割策略进行分割,得到分割后的未知分割图片;
[0008]获取登录用户的用户特征信息,计算得到用户的可信度,根据用户的可信度,选择对应的图片推送策略;
[0009]将根据图片推送策略推送的未知分割图片和已知分割图片进行拼接,生成向用户推送的验证图片;
[0010]在获得用户对验证图片中未知分割图片和已知分割图片的标注结果后,若用户对已知分割图片的标注结果可信,则认为用户对未知分割图片的标注结果可信,实现对未标注图片的标注,放入训练集。
[0011]进一步的,所述将未标注图片进行预处理,剔除掉图片中的背景噪声,包括:
[0012]将未标注的数据集图片进行灰度化后进行高斯滤波;
[0013]计算梯度值和方向;
[0014]根据梯度值和方向,对未标注的数据集图片进行非极大值抑制处理;
[0015]根据选取的双阈值,区分出强边缘点和弱边缘点;
[0016]通过滞后边界跟踪处理,得到准确边缘,然后进行图片裁剪,得到去除背景噪声后的图片。
[0017]进一步的,所述基于验证图片的多目标数据训练集生成方法,还包括:
[0018]对未标注图片中分割的每个未知分割图片的标注结果进行遍历,确定包括待检测目标的感兴趣区域;
[0019]对每一个感兴趣区域,将感兴趣区域内原先未知分割图片分割框分别向上下左右四个方向进行偏移,重新分割后再次推送给用户标注,若重新标注后的标注结果未发生跳变,则继续向相同方向偏移,否则向相反方向偏移,直到达到最大调整次数,得到调整后的分割框位置,形成对未标注图片的标注。
[0020]进一步的,所述基于验证图片的多目标数据训练集生成方法,还包括:
[0021]在对第一个感兴趣区域内未知分割图片分割框分别向上下左右四个方向进行偏移时,同样对其他感兴趣区域内未知分割图片分割框进行偏移,重新分割后再次推送给用户标注;
[0022]若其他感兴趣区域内未知分割图片的标注结果发生跳变,则记录之前未发生跳变的调整次数以及分割框位置;
[0023]在对其他感兴趣区域内未知分割图片分割框分别向上下左右四个方向进行偏移时,直接从记录的调整次数以及分割框位置开始进行偏移。
[0024]进一步的,所述基于验证图片的多目标数据训练集生成方法,还包括:
[0025]对未标注图片中分割的每个未知分割图片的标注结果进行遍历,若未发现相同标注结果的相邻未知分割图片,则按照预设比例缩小当前未知分割图片的分割框,再次分割未标注图片后将未知分割图片推送给用户标注;
[0026]直到出现相同标注结果的相邻未知分割图片时,记录上一次分割框位置作为最终未标注图片的标注结果。
[0027]进一步的,在对未标注图片中分割的每个未知分割图片的标注结果进行遍历,确定包括待检测目标的感兴趣区域之后,还包括:
[0028]若确定的感兴趣区域相邻,则将感兴趣区域重新划分为更小的未知分割图片,重新推送给用户标注,直到确定的感兴趣区域得到分离。
[0029]本申请提出的一种基于验证图片的多目标数据训练集生成方法,在生成验证图片过程中将信息全部已知的图片(模型已正确识别的图片)与包含未知信息的图片(模型未正确识别的图片)相结合,要求用户利用验证图片利用前者对用户的打标签的可信度度进行衡量,并实现对后者的标签化。利用庞大的系统登录行为,以众包方式大规模生成标签化图片数据,达到自动化生成训练集的效果。
附图说明
[0030]图1为本申请基于验证图片的多目标数据训练集生成方法流程图;
[0031]图2为本申请图片分割的一种实施例示意图;
[0032]图3为本申请实施例图片标注结果示意图;
[0033]图4为本申请重新分割图片标注结果示意图。
具体实施方式
[0034]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0035]随着登录系统图片验证的大规模应用,验证图片识别是防止系统被暴力破解的有效手段。而输入验证图片本质上是利用系统已知分割图片信息与用户输入的图片信息进行匹配,从而判断是否为正常用户登录,防止由程序模拟人登录(利用撞库的方式暴力破解用户账号密码)。
[0036]在深度学习技术日趋成熟的今天,尽管已有弱监督和无监督技术的出现,但有监督技术仍然是高可靠性和应对复杂识别场景的保证,尤其是在一些工业领域的应用。泛化性与识别精度是有监督模型的两个重要指标,这两个指标与训练数据集的规模密不可分。而训练数据集的生成与上述匹配过程具有一定的相似性,即训练数据集生成是将未知分割图片数据标信息以人工方式识别并告知系统,从而实现数据标签化。本申请的总体思路是,在用户登录进行验证码校验时,通过置信度评价制定相应的验证数据的推送策略,以众包的方式达到训练集大规模标签化的目的。
[0037]在一个实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于验证图片的多目标数据训练集生成方法,其特征在于,所述基于验证图片的多目标数据训练集生成方法,包括:将未标注图片进行预处理,剔除掉图片中的背景噪声;采用经过预训练的目标检测网络模型,对预处理后的未标注图片进行识别,按照识别结果分割出待检测目标区域,对于未标注图片的其余部分根据预设分割策略进行分割,得到分割后的未知分割图片;获取登录用户的用户特征信息,计算得到用户的可信度,根据用户的可信度,选择对应的图片推送策略;将根据图片推送策略推送的未知分割图片和已知分割图片进行拼接,生成向用户推送的验证图片;在获得用户对验证图片中未知分割图片和已知分割图片的标注结果后,若用户对已知分割图片的标注结果可信,则认为用户对未知分割图片的标注结果可信,实现对未标注图片的标注,放入训练集。2.根据权利要求1所述的基于验证图片的多目标数据训练集生成方法,其特征在于,所述将未标注图片进行预处理,剔除掉图片中的背景噪声,包括:将未标注的数据集图片进行灰度化后进行高斯滤波;计算梯度值和方向;根据梯度值和方向,对未标注的数据集图片进行非极大值抑制处理;根据选取的双阈值,区分出强边缘点和弱边缘点;通过滞后边界跟踪处理,得到准确边缘,然后进行图片裁剪,得到去除背景噪声后的图片。3.根据权利要求1所述的基于验证图片的多目标数据训练集生成方法,其特征在于,所述基于验证图片的多目标数据训练集生成方法,还包括:对未标注图片中分割的每个未知分割图片的标注结果进行遍历,确定包括待检测目标的感兴趣区域;对每一个感兴趣区域,将感兴趣区域内原先未知分割图片分割框分别向上下左右四个方向进行偏移,重新分割后再次推送...

【专利技术属性】
技术研发人员:邱杰凡贾逸哲丰泽辉张坤张锦鸿
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1