一种复杂自然场景图像中的文字检测方法技术

技术编号:27507948 阅读:28 留言:0更新日期:2021-03-02 18:36
本发明专利技术公开了一种复杂自然场景图像中的文字检测方法,属于计算机视觉和模式识别领域,涉及神经网络和计算机视觉技术领域,特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了基于字符标注的文字检测方法和基于单词标注的文字检测方法,学习字符间的组合特征,能降低文字的误检率,降低检测框的冗余度,具有灵活应对任意形状文字的能力。一种复杂场景下的文字检测方法,它的方法步骤为:图像数据预处理、构建网络框架、对模型进行预训练、训练网络框架;文字真实标签生成、输入一张待检测的自然场景下的文字图像、特征提取、图像判定、文字校正模块。文字校正模块。文字校正模块。

【技术实现步骤摘要】
一种复杂自然场景图像中的文字检测方法


[0001]本专利技术涉及计算机视觉和模式识别领域,尤其涉及一种复杂自然场景图像中的文字检测方法。

技术介绍

[0002]近年来,随着互联网、通讯技术的高速发展和社交网络的兴起,视频、音频和图像等多媒体数据日益飞速增长,这些信息使人与人之间的交流也变得非常容易。而图像相对于视频数据所需的存储容量更小、采集设备更为简便,相对于音频、文字数据包含信息更为丰富和直观,所以图像更符合日常的场景需求。人们面对海量图像数据,如何高效地从图像中自动获取有用的文字信息,近年来已经成为计算机视觉领域的研究热点。但是由于自然场景的多样性和拍摄视角的多变性,且自然场景文字通常具有不规则透视、弯曲和任意方向排列等情况,这时自然场景图像中的文字检测成为一个极具挑战性的任务。
[0003]此外在大部分图像中,文字区域占比很小,通常以小目标的形式出现。进而导致文字检测过程中,出现一定的误检和检测框冗余的问题。
[0004]针对自然场景文字的类内多变性和背景的复杂性,本专利技术提出了一种对任意形状的文字都具有强鲁棒性的自然场景文字检测的方法。

技术实现思路

[0005]本专利技术为解决上述问题,而提出的一种复杂自然场景图像中的文字检测方法。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]一种复杂自然场景图像中的文字检测方法,包括以下步骤:
[0008]S1、进行图像数据预处理,准备好包含不同形状文字图像的数据集;
[0009]S2、构建网络框架采用基于批量规格化的VGG-16的全卷积网络架构作为骨干,模型在译码部分有跳过连接,与U-net类似,因为它聚合低级特性;对于VGG-16,使用4个上采样比的卷积特征图作为最终的卷积图,最终输出有两个分支:字符检测分支和文字行检测分支;图像首先送入一个全卷积神经网络进行特征提取,再由文字判别模块对输入文字框进行文字检测;
[0010]S3、对模型进行预训练,引入信息迁移机制对模型进行预训练;
[0011]S4、训练网络框架:训练深度神经网络来预测字符区域;
[0012]S5、生成文字真实标签:对于每一幅训练图像,我们使用字符级边界框生成字符区域得分,字符区域得分表示给定像素为字符中心的概率;
[0013]S6、输入一张待检测的自然场景下的文字图像;
[0014]S7、将S6中的文字图像首先送入S2中的全卷积神经网络进行特征提取,再由文字判别模块对输入文字框进行文字检测;
[0015]S8、根据判定结果决定将图像送入文字行检测分支或字符检测分支;
[0016]S9、文字校正模块,可以自然地添加到端到端的文字识别方法使用,将任意形状的
文字矫正成水平形状的文字,以方便后续的识别操作;首先我们将文字表现形式拟合三种文字线模型,其复杂度不断增加;首先是零阶模型:文字行可以是水平的,也可以是垂直的;第二是一阶模型:文字行可以任意方向定位;第三是分段线性模型,文字行用一个有限多边形表示,任何形状的文字都可由一组中心线{l
i
}
n
i=1和一个高度值h表示,其中l
i
=(a
i
,b
i
,c
i
)表示一条a
i
x+b
i
y+c
i
=0的线;
[0017]对于零阶和一阶模型,利用所有字符的中心坐标(n=1)来估计一条中心线,对于分段线性模型,利用每个字符的相邻的字符k=min(n,11)(n=N,N表示字符数)估计每两个字符组成的N-1个线段,高度值h设为
[0018]其中G为所有字符角坐标的集合,d(g,l
i
)为点g与直线l
i
之间的距离;
[0019]通过最小参数来选择最佳的线模型D计算如下:
[0020][0021]式中,h
d
为模型D的高度估计值,h
d
越小,表明模型拟合越好;C
d
为模型复杂度惩罚,对零阶、一阶和分段线性模型分别将模型复杂度惩罚分别设为1.0,1.2和1.4,然后对文字进校正。
[0022]优选地,所述S1中的数据集包括:ICDAR2013、ICDAR2015、ICDAR2017、CTW-1500、MSRA-TD500、VGGSynthText-part。
[0023]优选地,所述S4中由于S3中引入信息迁移机制对模型进行预训练,因此采用S1中准备好的ICDAR2013、ICDAR2015和ICDAR2017作为训练数据集。
[0024]优选地,所述S4中训练网络框架包括以下步骤:首先使用SynthText-part数据集对网络进行50k迭代训练,然后使用每个基准数据集对模型进行微调;在训练时,将s
conf
(w)设置为0,忽略ICDAR2015和ICDAR2017数据集中的非文字区域,我们在所有训练过程中使用ADAM优化器。在微调期间,还以1:5的比率使用SynthText-part数据集,以确保字符区域确实是分开的,为了在自然场景中过滤出类似纹理的文字,在线硬负挖掘按1:3的比例应用,此外,还应用了基本的数据增广技术,如采用但不限于采用裁剪、旋转和/或颜色变化等数据增广技术。
[0025]优选地,所述S5中字符区域得分表示给定像素为字符中心的概率,与离散标记每个像素的二值分割映射不同,我们用高斯热力图编码字符中心的概率,由于图像上的字符边界框通过透视投影通常会发生畸变,故我们采用以下步骤来近似生成字符区域得分真实标签:
[0026]A1、准备二维各向同性高斯图;
[0027]A2、计算高斯映射区域与每个字符框之间的透视变换;
[0028]A3、扭曲高斯映射到边界区域。
[0029]优选地,所述S8中的文字行检测分支主要是针对不易分割成字符的特殊语言,针对此类文字我们的检测步骤如下:首先,通过将输入图像输入到主干网络中提取特征图,然后,我们采用文字定位模块对文字进行定位预测每个像素中的单词或文字行边界框,通常,由于接受域的限制,文字定位模块无法完整的检测到长文字,因此,引入下一个分支即迭代求精模块来解决这个问题,迭代求精模块可以迭代地从文字定位模块或自身的输出中提炼输入建议,使它们更接近于真实值边界框,迭代求精模块可以根据不同场景的需要,执行一
次或多次细化操作,在迭代求精模块的帮助下,初步建议能更完整的覆盖文字实例。
[0030]优选地,所述S8中的字符检测分支检测步骤如下:首先输入一张待检测的图像,则卷积神经网络会生成字符区域得分,字符区域评分用于定位图像中的单个字符,这一步骤在训练时需要相应的字符级标签,但字符的边界标注非常复杂以及耗时,与合成数据集不同,数据集中的真实图像通常有单词级别的标注,故我们设计了一个信息迁移机制,它可以在现有的附有单词标注的真实图像中,迁移学习文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种复杂自然场景图像中的文字检测方法,其特征在于,包括以下步骤:S1、进行图像数据预处理,准备好包含不同形状文字图像的数据集;S2、构建网络框架采用基于批量规格化的VGG-16的全卷积网络架构作为骨干,模型在译码部分有跳过连接,与U-net类似,因为它聚合低级特性,对于VGG-16,使用4个上采样比的卷积特征图作为最终的卷积图,最终输出有两个分支:字符检测分支和文字行检测分支;图像首先送入一个全卷积神经网络进行特征提取,再由文字判别模块对输入文字框进行文字检测;S3、对模型进行预训练,引入信息迁移机制对模型进行预训练;S4、训练网络框架:训练深度神经网络来预测字符区域;S5、生成文字真实标签:对于每一幅训练图像,我们使用字符级边界框生成字符区域得分,字符区域得分表示给定像素为字符中心的概率;S6、输入一张待检测的自然场景下的文字图像;S7、将S6中的文字图像首先送入S2中的全卷积神经网络进行特征提取,再由文字判别模块对输入文字框进行文字检测;S8、根据判定结果决定将图像送入文字行检测分支或字符检测分支;S9、文字校正模块,可以自然地添加到端到端的文字识别方法使用,将任意形状的文字矫正成水平形状的文字,以方便后续的识别操作;首先我们将文字表现形式拟合三种文字线模型,其复杂度不断增加;首先是零阶模型:文字行可以是水平的,也可以是垂直的;第二是一阶模型:文字行可以任意方向定位;第三是分段线性模型,文字行用一个有限多边形表示,任何形状的文字都可由一组中心线{l
i
}
n
i=1和一个高度值h表示,其中l
i
=(a
i
,b
i
,c
i
)表示一条a
i
x+b
i
y+c
i
=0的线;对于零阶和一阶模型,利用所有字符的中心坐标(n=1)来估计一条中心线,对于分段线性模型,利用每个字符的相邻的字符k=min(n,11)(n=N,N表示字符数)估计每两个字符组成的N-1个线段,高度值h设为其中G为所有字符角坐标的集合,d(g,l
i
)为点g与直线l
i
之间的距离;通过最小参数来选择最佳的线模型D计算如下:式中,h
d
为模型D的高度估计值,h
d
越小,表明模型拟合越好;C
d
为模型复杂度惩罚,对零阶、一阶和分段线性模型分别将模型复杂度惩罚分别设为1.0,1.2和1.4,然后对文字进校正。2.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S1中的数据集包括:ICDAR2013、ICDAR2015、ICDAR2017、CTW-1500、MSRA-TD500、VGGSynthText-part。3.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S4中由于S3中引入信息迁移机制对模型进行预训练,因此采用S1中准备好的ICDAR2013、ICDAR2015和ICDAR2017作为训练数据集。4.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述
S4中训练网络框架包括以下步骤:首先使用SynthText-part数据集对网络进行50k迭代训练,然后使用每个基准数据集对模型进行微调;在训练时,将s
conf
(w)设置为0,忽略ICDAR2015和ICDAR2017数据集中的非文字区域,我们在所有训练过程中使用ADAM优化器。在微调期间,还以1:5的比率使用SynthText-part数据集,以确保字符区域确实是分开的,为了在自然场景中过滤出类似纹理的文字,在线硬负挖掘按1:3的比例应用,此外,还应用了基本的数据增广技术,如采用但不限于采用裁剪、旋转和/或颜色变化等数据增广技术。5.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S5中字符区域得分表示给定像素为字符中心的概率,与离散标记每个像素的二值分割映射不同,我们用高斯热力图编码字符中心的概率,由于图像上的字符边界框通过透视投影通常会发生畸变,故我们采用以下步骤来近似生成字符区域得分真实标签:A1、准备二维各向同性高斯图;A2、计算高斯映射区域与每个字符框之间的透视变换;A3、扭曲高斯映射到边界区域。6.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S8中的文字行检测分支主要是针对不易分割成字符的特殊语言,针对此类文字我们的检测步骤如下:首先,通过将输入图像输入到主干网络中提取特征图,然后,我们采用文字定位模块对文字进行定位预测每个像素中的单词或文字行边界框,通常,由于接受域的限制,文字定位模块无法完整的检测到长文字,因此,引入下一个分支即迭代求精模块来解决这个问题,迭代求精模块可以迭代地从文字定位模块或...

【专利技术属性】
技术研发人员:王润民李秀梅张翔宇徐尉翔钱盛友
申请(专利权)人:湖南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1