当前位置: 首页 > 专利查询>西南大学专利>正文

一种弱监督文本检测方法技术

技术编号:26764574 阅读:43 留言:0更新日期:2020-12-18 23:40
本发明专利技术提出一种弱监督文本检测方法,包括:构建感受野生成器,将待检测图像输入所述感受野生成器,获取一个或多个感受野;根据所述一个或多个感受野感知文本区域;构建感受野判别器,将所述文本区域输入所述感受野判别器,根据文本在所述文本区域的分布,获取识别结果;将所述识别结果反馈给所述感受野生成器,对所述一个或多个感受野进行校正,通过校正后的所述感受野生成器输出文本特征图,本发明专利技术基于感受野,再不需要标注图像中文本坐标的情况下,完成文本检测,极大地降低了标注数据集的依赖性,提高自然场景的适应性。

【技术实现步骤摘要】
一种弱监督文本检测方法
本专利技术涉及图像识别领域,尤其涉及一种弱监督文本检测方法。
技术介绍
文字承载了丰富和准确的高级语义信息,人们可以通过文字传达思想和情感,它代表着人类文明的发展,是人与人交流的载体。文字检测是多项计算机智能任务的前置步骤,其目标是从给定的图像中,尽可能定位出文字所在区域。场景文本检测是以自然场景为背景进行文字定位,在即时视觉翻译、图像检索、场景解析、自动阅卷、地理位置和无人驾驶等众多应用中,有着至关重要的作用。场景文字检测,其难度远大于检测扫描文档图像中的文字位置,其文字表达方式更为丰富多变,如:·允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等。·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样,相比于常规物体,文字行长度、长宽比例变化范围很大。·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。针对上述问题根因,涌现出许多基于深度学习的场景文本检测有监督学习方法。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。但由于有监督学习方法严重依赖标注信息,在没有标注信息的数据集时,模型无法泛化。此外,自然场景图文标注成本很高、相关公开数据集稀少,需要具有相关领域专业知识或者经过训练的人进行标注,并且标注种类繁多:图像级类别标签、对象级位置信息、部件级位置信息。斯坦福大学研究人员指出构造具有200万标注的细粒度数据集需要耗费30万美元。因为包含文字的自然场景区域广泛,文本内容和形式多样,已公开的标注有文本区域信息的数据集有限,且区域标注成本高昂,所以有监督方法很难普及。
技术实现思路
鉴于以上现有技术存在的问题,本专利技术提出一种弱监督文本检测方法,主要解决现有文本检测方法对自然应用场景适应性差的问题。为了实现上述目的及其他目的,本专利技术采用的技术方案如下。一种弱监督文本检测方法,包括:构建感受野生成器,将待检测图像输入所述感受野生成器,获取一个或多个感受野;根据所述一个或多个感受野感知文本区域;构建感受野判别器,将所述文本区域输入所述感受野判别器,根据文本在所述文本区域的分布,获取识别结果;将所述识别结果反馈给所述感受野生成器,对所述一个或多个感受野进行校正,通过校正后的所述感受野生成器输出文本特征图。可选地,可将所述文本特征图输入一个或多个文本识别模型,获取所述文本特征图中的文本信息。可选地,采用U型全卷积网络构建所述感受野生成器。可选地,所述感受野判别器包括卷积层、循环层和转录层,通过所述卷积层进行特征提取,获取所述文本区域的特征序列;通过所述循环层对所述特征序列进行分类,判断所述文本区域内是否包含文本,若是,则获取所述文本在所述文本区域的分布;所述转录层对所述文本在所述文本区域的分布进行回归处理,获取所述识别结果。可选地,所述卷积层采用卷积神经网络,所述循环层采用循环神经网络,所述转录层采用CTC网络。可选地,还包括预先对构建的所述感受野判别器进行训练,将经过文本标注的图像数据集作为构建的所述感受野判别器的输入,获取训练后的所述感受野判别器。可选地,根据所述的一个或多个感受野感知文本区域,包括:将所述感受野与所述待检测图像进行叠加,提取出叠加后的图像区域作为所述文本区域。可选地,分别为所述循环层和所述转录层构建分类损失函数和回归损失函数,通过所述分类损失函数和所述回归损失函数计算损失值,将所述损失值作为所述识别结果反馈给所述感受野生成器。如上所述,本专利技术一种弱监督文本检测方法,具有以下有益效果。通过感受野获取文本区域,不受文本位置及排布方式的约束,可提高模型对于自然应用场景的适应性。附图说明图1为本专利技术一实施例中弱监督文本检测方法的流程图。图2为本专利技术一实施例中感受野生成器的网络结构示意图。图3为本专利技术一实施例中感受野判别器的网络结构示意图。图4为本专利技术一实施例中残差模块结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。请参阅图1,本专利技术提供一种弱监督文本检测方法,包括步骤S01-S03。在步骤S01中,构建感受野生成器,将待检测图像输入感受野生成器,获取一个或多个感受野,并根据一个或多个感受野感知文本区域:在一实施例中,感受野生成器可采用U型全卷积网络(UNetworks,U-Net网络)。具体网络结构请参阅图2。U-Net网络可看作由两部分组成,一部分为压缩路径,另一部分为扩展路径,压缩路径和扩展路径形成对称U形结构。压缩路径有4个块(block)组成,每个block采用三个卷积和最大池化(MaxPooling)降采样。可采用2*2的最大池化进行池化,每次降采样后特征图(FeatureMap)的个数乘以2,因此,如图2所示,输入一张64X144的图像,经过一次降采样后特征图尺寸变为32X72;经过整个压缩路径后,特征图尺寸为4X9。扩展路径同样采用4个block,扩展路径的block仍采用3个卷积层,区别在于,扩展路径的block三个卷积层之前设置反卷积层进行上采样,反卷积操作可采用2*2的卷积核,每次经过上采样后特征图的尺寸乘以2,同时特征通道数(即特征图个数)减半。然后将压缩路径各block得到的特征图复制到U型结构对应的扩展路径block,进行特征图合并。扩展路径的最后一个block连接一个卷积层,通过该卷积层获取的一个或多个特征图作为感受野热力图,该一个或多个感受野热力图对应的特征图在待检测图像对应的区域即为感受野。可选地,block中的卷积可采用3*3的卷积核进行无填充卷积,激活函数可采用ReLU函数。可选地,待检测图像的尺寸可根据实际需求进行灵活调整。在一实施例中,将获取的一个或多个感受野与待检测图像进行叠加,提取出叠加后的图像区域作为感知的文本区域。在步骤S02中,构建感受野判别器,将文本区域输入感受野判别器,根据文本在文本区域的分本文档来自技高网
...

【技术保护点】
1.一种弱监督文本检测方法,其特征在于,包括:/n构建感受野生成器,将待检测图像输入所述感受野生成器,获取一个或多个感受野,并根据所述一个或多个感受野感知文本区域;/n构建感受野判别器,将所述文本区域输入所述感受野判别器,根据文本在所述文本区域的分布,获取识别结果;/n将所述识别结果反馈给所述感受野生成器,对所述一个或多个感受野进行校正,通过校正后的所述感受野生成器输出文本特征图。/n

【技术特征摘要】
1.一种弱监督文本检测方法,其特征在于,包括:
构建感受野生成器,将待检测图像输入所述感受野生成器,获取一个或多个感受野,并根据所述一个或多个感受野感知文本区域;
构建感受野判别器,将所述文本区域输入所述感受野判别器,根据文本在所述文本区域的分布,获取识别结果;
将所述识别结果反馈给所述感受野生成器,对所述一个或多个感受野进行校正,通过校正后的所述感受野生成器输出文本特征图。


2.根据权利要求1所述的弱监督文本检测方法,其特征在于,可将所述文本特征图输入一个或多个文本识别模型,获取所述文本特征图中的文本信息。


3.根据权利要求1所述的弱监督文本检测方法,其特征在于,采用U型全卷积网络构建所述感受野生成器。


4.根据权利要求1所述的弱监督文本检测方法,其特征在于,所述感受野判别器包括卷积层、循环层和转录层,通过所述卷积层进行特征提取,获取所述文本区域的特征序列;
通过所述循环层对所述特征序列进行分类,判断所述文本区域内是否包含文本,若是,则获...

【专利技术属性】
技术研发人员:李莉朱世宇陈善雄许枭飞帅鹏举
申请(专利权)人:西南大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1