一种基于半监督与弱监督学习的曲形场景文字检测方法技术

技术编号:23085631 阅读:43 留言:0更新日期:2020-01-11 01:20
本发明专利技术提供一种基于半监督与弱监督学习的曲形场景文字检测方法,用于减少曲形文字检测算法所需要的人工标注,同时让整个算法框架更加简洁,利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据,就能训练得到一个准确的曲形文字检测器,能够对场景曲形文字进行准确检测。

A text detection method for curved scene based on semi supervised and weak supervised learning

【技术实现步骤摘要】
一种基于半监督与弱监督学习的曲形场景文字检测方法
本专利技术涉及图像文字检测
,具体涉及一种基于半监督与弱监督学习的曲形场景文字检测方法。
技术介绍
场景文字通常出现在车牌、产品包装、广告牌等上,是图像中最常见的对象之一,携带有丰富的语义信息。阅读自然场景图像中的文字是各种复杂任务,如车辆自动导航和产品自动检索等任务的一个基本任务。场景文字因其重要性和基础性,吸引了学术界和工业界越来越多的关注。与图像中的通用目标相比,场景文字天生具有多个方向、大宽高比、形状任意、背景复杂等特点,给文字的检测和识别带来了巨大困难和挑战。场景文字的早期研究主要集中在横向文字上,随着技术及数据集的发展与进步,多向文字逐渐成为研究的主要对象。近年来,曲形文本作为自然场景文字中的一种常见对象,吸引了大量的关注。目前,场景文字检测识别方法都主要基于卷积神经网络。曲形文字检测方法主要包括基于语义分割[8]和实例分割[9]的方法。Ch’ng等[1]利用反卷积网络对图像进行语义分割得到文字区域。Liu等[2]利用R-FCN[10]网络结构回归得到包围文字的十四边形。Lyu等[7]利用实例分割方法MaskR-CNN[6],同时得到文字实例的矩形包围框及文字区域的像素级二值表示。Long等[5]将曲形文字建模成多个沿中心线的圆盘,同时回归圆盘的半径及角度,最后得到文字区域的重建结果。利用以上这些全监督方法可以取得不错的性能,然而这些方法大多依赖于准确的多形性或像素级标注,大大加重了人工标注的负担。Li等[3]提出一种利用图像有无文字的类别标签来产生类别激活图的弱监督方法。之后进行最大极值稳定区域提取,并将其聚类得到文字建议区域。Tian等[4]提出一种利用少量字符级标签和大量单词集标签来训练一个文字检测器的框架。然而,这种方法需要复杂的、耗费大量人力的字符级标注,而且,最后将字符聚集成单词或文本行无法扩展到除横向文字以外的情况。基于监督学习的曲形文本检测方法虽然可以取得不错的效果,但是他们依赖于精确的多边形或像素级标注,人工标注成本高。Li等[3]提出的方法可以产生较好的水平矩形建议区域,却无法对曲形文字进行准确的定位;WeText[4]方法需要复杂的字符级标签,且其后处理方法扩展性不佳。
技术实现思路
为了减少曲形文字检测算法所需要的人工标注,同时让整个算法框架更加简洁,本专利技术提供了一种基于半监督与弱监督学习的曲形场景文字检测方法。利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据就能训练得到一个准确的曲形文字检测器,能够对场景曲形文字进行准确检测。本专利技术采用的技术方案如下:一种基于半监督与弱监督学习的曲形场景文字检测方法,包括以下步骤:构建一个检测器,利用少量全标注数据对检测器进行初次训练;根据半监督与弱监督学习策略,利用无标注或弱标注数据对初次训练好的检测器进行微调训练;利用微调训练好的检测器检测曲形场景文字,检测步骤包括:从目标图像中提取多尺度的图像特征表示;利用图像特征表示得到可能含有文字的候选区域;根据候选区域的局部特征,利用粗定位网络回归得到文字的水平矩形包围框;利用水平矩形包围框重新提取更精确的局部特征,根据该更精确的局部特征,利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。其中,半监督与弱监督学习策略包括三种策略。朴素半监督学习策略,该朴素半监督学习策略为:利用初次训练好的检测器对无标注数据进行伪标注,得到标注候选集,经过阈值筛选得到伪标注数据集,将伪标注数据与已标注数据合并在一起,对初次训练好的检测器进行微调训练。基于过滤的弱监督学习策略,该基于过滤的弱监督学习策略为:在朴素半监督学习策略的基础上,利用数据的弱标签来对标注候选集进行过滤,弱标签包含重要的语义信息,利用弱标注框与检测结果的交并比,过滤误检测得到的结果,减少朴素半监督学习中引入的噪声。基于局部监督的弱监督学习策略,该基于局部监督的弱监督学习策略为:粗定位网络采用全监督,将弱标注水平矩形包围框直接输入到精细定位网络中,得到相应的二值标注,利用得到标注来训练精细定位网络。一种曲形场景文字检测器,包括:文字特征提取网络模块,用于从目标图像中提取得到多尺度的图像特征表示;文字建议区域生成网络模块,用于利用图像特征表示得到可能含有文字的候选区域;区域特征采样器,用于根据候选文字区域得到局部特征,以及根据水平矩形包围框重新提取更精确的局部特征;粗定位网络模块,用于根据局部特征回归得到文字的水平矩形包围框;精细定位网络模块,用于根据更精确的局部特征得到水平矩形包围框中主体文字区域的二值表示。进一步地,文字特征提取网络模块由ResNet50和FPN组成。进一步地,文字建议区域生成网络模块采用全卷积层,在FPN的五个阶段分别设置不同长宽比为0.2、0.5、1、2和5的锚框。进一步地,区域特征采样器采用ROI-Align。进一步地,粗定位网络模块采用两个全连接层。进一步地,精细定位网络模块采用卷积层。本专利技术取得的技术效果如下:1、基础检测器可端到端训练,直接得到曲形文字检测结果,无须中间步骤。2、半监督学习与弱监督学习策略只影响标签生成过程,不会影响训练过程,使得整体框架简洁有效。3、学习策略3将检测器视为多个部分组成,有效的利用了弱标签,同时减少了伪标注过程中引入的噪声,大大提高了模型的性能。附图说明图1是本专利技术的曲形场景文字检测方法流程图。图2是本专利技术的检测器框架图。具体实施方式为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。本实施例提出一种基于半监督学习与弱监督学习的曲形场景文字检测方法,该方法通过提出的高效利用弱标签进行学习的弱监督学习策略对构建的检测器进行训练,利用训练好的训练器来检测曲形场景文字。该检测器包括以下几个网络模块:(1)文字特征提取网络,由ResNet50和FPN组成。(2)文字建议区域生成网络,由全卷积层构成,在FPN的五个阶段设置大小不同长宽比为0.2、0.5、1、2和5的锚框。(3)区域特征采样器,采用ROI-Align对布局特征进行提取。(4)粗定位网络,由两个全连接层组成,回归得到文字实例的水平矩形包围框。(5)精细定位网络,由四个连续的卷积及一个反卷积层组成,得到水平矩形包围框中主体文字区域的二值表示。本检测器通过训练实现由粗到精的过程,具体地,首先利用少量全标注数据进行初次训练,为表述方便,此处将初次训练好的检测器称为基准检测器,再采用半监督与弱监督学习策略,利用大量无标注或弱标注数据进行微调训练,通过迭代标注和训练,最终得到准确的曲形文字检测器。半监督与弱监督学习策略包括以下三种学习策略:1.朴素半监督学习策略。该策略利用训练好的本文档来自技高网
...

【技术保护点】
1.一种基于半监督与弱监督学习的曲形场景文字检测方法,其特征在于,包括以下步骤:/n构建一个检测器,利用全标注数据对检测器进行初次训练;/n根据半监督与弱监督学习策略,利用无标注或弱标注数据对初次训练好的检测器进行微调训练;/n利用微调训练好的检测器检测曲形场景文字,检测步骤包括:/n从目标图像中提取多尺度的图像特征表示;/n利用图像特征表示得到可能含有文字的候选区域;/n根据候选区域的局部特征,利用粗定位网络回归得到文字的水平矩形包围框;/n利用水平矩形包围框重新提取更精确的局部特征,根据该更精确的局部特征,利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。/n

【技术特征摘要】
1.一种基于半监督与弱监督学习的曲形场景文字检测方法,其特征在于,包括以下步骤:
构建一个检测器,利用全标注数据对检测器进行初次训练;
根据半监督与弱监督学习策略,利用无标注或弱标注数据对初次训练好的检测器进行微调训练;
利用微调训练好的检测器检测曲形场景文字,检测步骤包括:
从目标图像中提取多尺度的图像特征表示;
利用图像特征表示得到可能含有文字的候选区域;
根据候选区域的局部特征,利用粗定位网络回归得到文字的水平矩形包围框;
利用水平矩形包围框重新提取更精确的局部特征,根据该更精确的局部特征,利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。


2.如权利要求1所述的方法,其特征在于,半监督与弱监督学习策略包括朴素半监督学习策略,该朴素半监督学习策略为:利用初次训练好的检测器对无标注数据进行伪标注,得到标注候选集,经过阈值筛选得到伪标注数据集,将伪标注数据与已标注数据合并在一起,对初次训练好的检测器进行微调训练。


3.如权利要求2所述的方法,其特征在于,半监督与弱监督学习策略包括基于过滤的弱监督学习策略,该基于过滤的弱监督学习策略为:在朴素半监督学习策略的基础上,利用数据的弱标签来对标注候选集进行过滤,弱标签包含重要的语义信息,利用弱标注框与检测结果的交并比,过滤误检测得到的结果,减少朴素半监督学习中引入的噪声。


4.如权利要求1所述的方法,其特征在于,半监督与弱监督学习策略包括基于局部...

【专利技术属性】
技术研发人员:王伟平秦绪功周宇杨东宝
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1