一种易于快速迭代更新的Logo检测方法技术

技术编号:20389736 阅读:13 留言:0更新日期:2019-02-20 02:48
本发明专利技术公开了一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别。达到解决某些Logo样本过少,难以收集的情形;确定Logo检测任务的最优目标检测模型;新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率的效果。

【技术实现步骤摘要】
一种易于快速迭代更新的Logo检测方法
本专利技术涉及计算机视觉领域,特别是涉及一种易于快速迭代更新的Logo检测方法。
技术介绍
日常生活中涉及的事物场景都有自己的品牌(麦当劳,可口可乐,乐高,迪士尼),新品牌产生必然伴随新Logo,而老品牌也会对自己已有Logo推陈出新,综上,品牌迭代更新非常迅速。Logo数量较少时,目标检测模型可以胜任Logo识别任务,解决方案如下(以识别20个类别(即品牌)Logo为例):收集指定20个类别Logo样本,每类150张左右,标注Logo位置及类别(即总计收集标注20*150=3000张图片);将样本送入模型训练至收敛,可预测1张未知图片中Logo位置及类别。但随着Logo类别逐渐增多,每新增一批Logo,就要重新收集图片,标注,非常耗费人力,而且部分类别样本很难收集。随着Logo更新换代,先前已收集样本中被废弃的旧版Logo,对模型预测能力没有任何贡献,且预测种类增多时,准确性必然下降。另外,目标检测模型实现方式繁多,如何选择最优方案值得探讨。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足,提供一种易于快速迭代更新的Logo检测方法。为解决上述技术问题,本专利技术提供一种易于快速迭代更新的Logo检测方法,包括构建并训练logo检测模型至收敛,得到特征点Landmark1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark2,用于预测logo类别,具体步骤如下:步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;步骤2,生成xml文件,记录矩形框位置及标注类别;步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;步骤3,确定Landmark1最优模型;步骤3-1,以tensorflow为统一框架,实现FasterRCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括InceptionResnetV2、InceptionV2、InceptionV3、MobileNet、Resnet101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark1最终模型;步骤4,利用步骤3的Landmark1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark2,并预测Logo类别;步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark2,并使用重新训练的Landmark2预测新增logo的类别。所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。所述步骤2-2中,对抓取的纯Logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。所述步骤6中,收集的新logo样本量为150张。本专利技术益处如下:1.解决某些Logo样本过少,难以收集的情形;2.确定Logo检测任务的最优目标检测模型;3.新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率。附图说明图1为本专利技术的示例性实施例的Logo检测方法流程图;图2为各目标检测算法结构在COCO2016数据集的表现示意图。具体实施方式本专利技术技术方案是,将模型划分为2部分:Landmark1:整理好1.5w张包含Logo的图片样本,使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件,供模型训练,收敛后,可预测未知图片中Logo位置;Landmark2:抠出Landmark1位置框中的Logo,送入图片分类模型,训练至收敛,此时可预测抠出的Logo是哪个类别(品牌)。一种易于快速迭代更新的Logo检测方案,包括构建并训练logo检测模型至收敛,得到特征点Landmark1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark2,用于预测logo类别,具体步骤如下:步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;步骤2,生成xml文件,记录矩形框位置及标注类别;步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛;步骤3,确定Landmark1最优模型;步骤3-1,以tensorflow为统一框架,实现FasterRCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括InceptionResnetV2、InceptionV2、InceptionV3、MobileNet、Resnet101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark1最终模型;步骤4,利用步骤3的Landmark1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark2,并预测Logo类别;步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark2,并使用重新训练的Landmark2预测新增logo的类别。所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x30本文档来自技高网...

【技术保护点】
1.一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别,具体步骤如下:步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;步骤2,生成xml文件,记录矩形框位置及标注类别;步骤2‑1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;步骤2‑2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2‑1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;步骤3,确定Landmark 1最优模型;步骤3‑1,以tensorflow为统一框架,实现Faster RCNN,R‑FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;步骤3‑2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增logo的类别。...

【技术特征摘要】
1.一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练logo检测模型至收敛,得到特征点Landmark1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark2,用于预测logo类别,具体步骤如下:步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;步骤2,生成xml文件,记录矩形框位置及标注类别;步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;步骤3,确定Landmark1最优模型;步骤3-1,以tensorflow为统一框架,实现FasterRCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括InceptionResnetV2、InceptionV2、InceptionV3、M...

【专利技术属性】
技术研发人员:王旻毅房鹏展
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1