【技术实现步骤摘要】
一种基于GR和对抗学习的弱监督曲面文本检测方法
[0001]本专利技术属于图像处理领域,具体涉及一种GR和对抗学习的弱监督曲面文本检测方法。
技术介绍
[0002]近年来,从现实场景图像中提取文本信息已经成为计算机视觉领域的研究热点。场景文本检测是指对自然场景图片中存在文字的区域进行定位,即找到单词或者文本行的边界框。因为自然场景中的文字展现形式极其丰富,如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理等。因为干扰十分严重,算法在定位边界框时会难以判定文本实例。
[0003]文本检测算法可以分为传统的方法和深度学习的方法,传统的文本检测主要依靠人为设计的经验特征。随着深度学习技术的崛起,传统方法在准确性和适应性方面都远远落后于基于深度学习的算法。基于深度学习的场景文本检测可以分为两种:第一类基于普通的物体检测网络,如SSD、YOLO等,可以直接预测候选文本区域边界框;第二类基于全卷积语义分割网络,可以生成场景文本分割图,通过后处理给出最终的文本区域边界框。相比较而言, ...
【技术保护点】
【技术特征摘要】
1.一种基于GR和对抗学习的弱监督曲面文本检测方法,其特征在于,包括以下步骤:步骤1:将场景图片与任意文本叠加生成场景文本图片作为训练样本,标签为场景图片本身;步骤2:采用ResNet
‑
50作为特征提取网络,逐级提取图像的高层语义特征,输出特征图的分辨率缩小2倍;步骤3:通过反卷积进行上采样,使高层语义特征图逐步恢复到输入训练样本大小;步骤4:对不同深度的特征图,将卷积层与反卷积层输出的特征图进行多尺度融合,得到更为丰富的语义信息;步骤5:将融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;步骤6:采用SLIC生成超像素,获取每一超像素i在CIE LAB下的显著值;步骤7:获取超像素在位置空间下的显著值;步骤8:将颜色空间下得到的显著图和位置空间下得到的显著图进行融合,得到初始显著图;步骤9:以超像素为节点、相邻两超像素之间的距离为边设计一个连通图G=(V,E),加入像素间关联信息;步骤10:将视觉显著性检测GR模型得到的显著图与对抗学习得到的文本候选区域进行特征融合,得到特征融合后的文本候选区域。2.根据权利要求1所述的一种基于GR和对抗学习的弱监督曲面文本检测方法,其特征在于,所述上采样步骤包括:在图片尺度恢复过程中,将特征提取网络得到的高层语义输入第一反卷积层,每一个转置卷积层的上采样倍数与对应的下采样倍数一致,随着网络进行多次转置卷积,经过最后一个转置卷积之后输出特征图通道数为1,尺度大小与初始输入图片一致。3.根据权利要求1所述的一种基于GR和对抗学习的弱监督曲面文本检测方法,其特征在于,所述步骤6获取颜色空间下的显著值具体包括:计算每一超像素i在CIE LAB色彩空间下的颜色均值c
i
和归一化后的坐标p
i
,每一超像素的显著值由如下公式得到:其中,σ
p
为权重。乘号左侧是衡量超像素之间色彩相似度,相似度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。