【技术实现步骤摘要】
一种面向任意角度的场景文本检测方法
本专利技术涉及文本检测
,尤其涉及一种面向任意角度的场景文本检测方法。
技术介绍
文字是人类千百年来沉淀的成果,它所包含的信息常常精确且全面,对人类理解图像具有很大的帮助。当今时代,人们喜欢通过手机或摄像机拍摄的图片通过社交软件来分享并记录自己的生活及工作等,其中图片中的文本信息更能直观地呈现出所表达的内容,文本属于高层视觉元素,对于文本检测、定位、识别是图像理解中的重要组成部分。文本检测一般分为文档文本的图像检测算法和自然场景文本的检测算法,由于场景文本的背景取材不定,不像文档文本那样单一;场景文本的形状、大小、字体、颜色排列各异,不像文档文本整齐划一;另外拍照时可能出现抖动、遮挡、分辨率过低等。在这些情况下,文本信息大打折扣,再加上背景的复杂性,场景图像文本检测的难度可谓不言自明。现有技术存在的文本检测方法,例如首先运用分段网络生成文本预测图,再利用几何方法回归,但是在分段时通常很耗时,且文本垂直方向时可能预测不准;有的方法虽然提取的语义信息丰富,但目标位置比较粗略,小的文本目标容易被忽略,导致准确性较低。本专利技术提出一种方法,可实现任意角度的场景文本检测,同时提高检测速度和准确率。
技术实现思路
针对上述问题,本专利技术提出一种面向任意角度的场景文本检测方法,主要解决
技术介绍
中的问题。本专利技术提出一种面向任意角度的场景文本检测方法,包括以下步骤:S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;S ...
【技术保护点】
1.一种面向任意角度的场景文本检测方法,其特征在于,包括以下步骤:/nS1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;/nS2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;/nS3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;/nS4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;/nS5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;/nS6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。/n
【技术特征摘要】
1.一种面向任意角度的场景文本检测方法,其特征在于,包括以下步骤:
S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;
S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;
S3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;
S4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;
S5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;
S6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。
2.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:
首先对训练图片进行缩放处理,然后经过卷积层和池化层进行特征提取,其中所有卷积层的卷积核大小都是3x3,步长是1,填充是1,这种设置使卷积后不改变特征图的大小;所有的池化层的池化核大小为2x2,步长为2,每经过一次池化,输出特征图的长宽都会变为原来的1/2,卷积神经网络最后一层输出的特征图的长宽均为原图的1/16。
3.根据权利要求2所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:
将卷积神经网络的最后一层特征输入所述旋转区域提议网络,首先对输入特征使用一个nxn的窗口使每个滑动窗口都映射到一个低维特征,然后将低维特征输入到两个平行的卷积层中,一个是分类层,一个是回归层。
4.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S3还包括:
将文本区域的真实边界表示为具有5个元组(x,y,w,h,θ)的旋转边界框,每一个判定为文本区域的旋转边界框,输出7维预测向量,坐标(x,y)表示边界框的几何中心,高度h为边界框的短边,宽度w为边界框的长边,方向θ为从x轴的正方向到与旋转的边界框的长边平行的方向的角度,由于场景文本检测读取方向及其相反方向不会影响检测到的区域,因此方向参数θ只覆盖一半的角度空间。
5.根据权利要求4所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S3还包括:
在训练过程中,首先添加方向参数以控制候选框方向,使用6个不同方向的输入,即-π/6,0,π/6,π/3,π/2,2π/3,它们在方向覆盖和计算效率之间进行权衡;其次,预置旋转默认框的宽高比设为1:2、1:5和1:8以覆盖广泛的文本行,为了不忽略小文本目标,尺度设为4、8、16和32,在滑动位置的特征图上的每一点将生成72个旋转默认框,每个滑动窗口位置...
【专利技术属性】
技术研发人员:杨海东,巴姗姗,黄坤山,彭文瑜,林玉山,
申请(专利权)人:佛山市南海区广工大数控装备协同创新研究院,佛山市广工大数控装备技术发展有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。