文本检测方法、装置、设备和介质制造方法及图纸

技术编号:39319790 阅读:7 留言:0更新日期:2023-11-12 16:01
本申请的一种文本检测方法,包括:对目标图像提取若干个不同尺度的初始特征信息,并对所述初始特征信息叠加,得到叠加特征信息;通过预设的感受野模块对所述叠加特征信息进行特征增强,得到第一增强特征;通过预设的注意力模块对所述第一增强特征进行注意力增强,得到第二增强特征;根据所述第二增强特征,对所述目标图像进行文本框拟合,并通过拟合的文本框进行文本检测,从而在文本和背景区分难度较大的情况下,提高文本检测的完整性。提高文本检测的完整性。提高文本检测的完整性。

【技术实现步骤摘要】
文本检测方法、装置、设备和介质


[0001]本申请涉及图像处理
,例如涉及一种文本检测方法、装置、设备和介质。

技术介绍

[0002]文本检测是图像处理中的一个重要部分,现有技术中的文本检测方法通常是将图像进行二值化处理,使图像的文本区域和背景区域出现明显的黑白效果。
[0003]当文本在图像中较为明显,即文本与背景容易区分时,现有的文本检测算法就能很容易地对文本区域和背景区域进行区分。然而,当文本的颜色与背景较为相似,即文本与背景很难区分时,现有的文本检测算法在进行二值化处理时,很容易将其误划分为背景区域,从而导致对此类文本的漏检。

技术实现思路

[0004]本申请目的在于:提供一种文本检测方法、装置、设备和介质,其能够在文本和背景区分难度较大的情况下,提高文本检测的完整性。
[0005]为达到上述目的,本申请提供了一种文本检测方法,包括:
[0006]对目标图像提取若干个不同尺度的初始特征信息,并对所述初始特征信息叠加,得到叠加特征信息;
[0007]通过预设的感受野模块对所述叠加特征信息进行特征增强,得到第一增强特征;
[0008]通过预设的注意力模块对所述第一增强特征进行注意力增强,得到第二增强特征;
[0009]根据所述第二增强特征,对所述目标图像进行文本框拟合,并通过拟合得到的文本框进行文本检测。
[0010]本申请还提供了一种文本检测装置,包括:
[0011]特征识别单元,用于对目标图像提取若干个不同尺度的初始特征信息,并对所述初始特征信息叠加,得到叠加特征信息;
[0012]感受野增强单元,用于通过预设的感受野模块对所述叠加特征信息进行特征增强,得到第一增强特征;
[0013]注意力增强单元,用于通过预设的注意力模块对所述第一增强特征进行注意力增强,得到第二增强特征;
[0014]文本定位单元,用于根据所述第二增强特征,对所述目标图像进行文本框拟合,并通过拟合得到的文本框进行文本检测。
[0015]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的一种文本检测方法和/或上述任一项所述的文本检测方法的步骤。
[0016]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的一种文本检测方法和/或上述任一项所述的文本
检测方法的步骤。
[0017]本申请的一种文本检测方法,通过对目标图像进行多个尺度的特征提取,并对各个尺度的特征进行叠加,从而得到同时包含空间信息和上下文信息的叠加特征信息;通过预设的感受野模块对叠加特征信息进行特征增强,从而提高了图像的感受野,同时捕捉不同感受野的信息,实现了模拟人类视觉的效果;通过预设的注意力模块对第一增强特征进行注意力增强,得到了特征图通道之间的长范围语义依赖关系和各个位置之间的语义关联,提高了特征的置信度;基于特征增强后的特征进行文本框拟合,能够提高在文本和背景之间的区分度,从而提高文本检测的完整性。
附图说明
[0018]图1为一实施例的文本检测方法的流程示意图;
[0019]图2为一实施例的文本检测装置结构示意图;
[0020]图3为一实施例的计算机设备的结构示意框图。
[0021]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0022]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0023]本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
[0024]本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0025]参照图1,是本申请公开的一种文本检测方法的流程示意图,包括:
[0026]S1:对目标图像提取若干个不同尺度的初始特征信息,并对所述初始特征信息叠加,得到叠加特征信息;
[0027]S2:通过预设的感受野模块对所述叠加特征信息进行特征增强,得到第一增强特征;
[0028]S3:通过预设的注意力模块对所述第一增强特征进行注意力增强,得到第二增强特征;
[0029]S4:根据所述第二增强特征,对所述目标图像进行文本框拟合,并通过拟合得到的文本框进行文本检测。
[0030]如上步骤S1所述,可以采用VGG(Visual Graphics Generator,目视图像生成器)等特征提取器对目标图像进行初始特征信息提取,在提取过程中,分别对目标图像进行多种倍数的放大,并对不同放大倍数下的目标图像进行特征提取,从而得到上述不同尺度的初始特征信息;具体来说,VGG是采用连续的几个3x3的卷积核代替原先的较大卷积核,在VGG中,使用了3个3x3卷积核来代替7x7卷积核,使用了2个3x3卷积核来代替5*5卷积核,由于多层非线性层可以增加网络深度,因此在保证具有相同感知野的条件下,提升了网络的深度,在一定程度上提升了神经网络的效果。
[0031]具体地,对不同尺度的初始特征信息叠加,即进行concat处理,示例性地,假定其中一个尺度的初始特征信息为[1,2,3],另一个尺度的初始特征信息为[4,5,6],那么concat之后可以得到叠加特征性信息[1,2,3,4,5,6]。
[0032]如上步骤S2所述,上述感受野模块可以为RFB(ReceptiveFieldsBlock,感受野模块),在具体的实施方式中,RFB引入了3个dilated卷积层,使得感受野呈指数级增长,从而提高了感受野,同时捕捉不同感受野的信息,达到更为精确地模拟人类视觉的效果,进而提高了对文本和背景区分的准确性。
[0033]如上步骤S3所述,上述注意力模块可以为CAB(Channel attention Block,通道注意力模块)和SAB(Spatial attention Bl本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,其特征在于,包括:对目标图像提取若干个不同尺度的初始特征信息,并对所述初始特征信息叠加,得到叠加特征信息;通过预设的感受野模块对所述叠加特征信息进行特征增强,得到第一增强特征;通过预设的注意力模块对所述第一增强特征进行注意力增强,得到第二增强特征;根据所述第二增强特征,对所述目标图像进行文本框拟合,并通过拟合得到的文本框进行文本检测。2.根据权利要求1所述的文本检测方法,其特征在于,所述通过预设的感受野模块对所述叠加特征信息进行特征增强,得到第一增强特征,包括:将所述叠加特征信息输入所述感受野模块中的多分枝结构中,得到不同尺寸的卷积层输出结果,其中,所述多分枝结构包括不同尺寸卷积核的卷积层;对所述卷积层输出结果进行融合,得到所述第一增强特征。3.根据权利要求1所述的文本检测方法,其特征在于,所述通过预设的注意力模块对所述第一增强特征进行注意力增强,得到第二增强特征,包括:通过预设的通道注意力模块,获取不同通道的所述叠加特征信息对应的最大池矢量和平均池矢量;将所述最大池矢量和平均池矢量输入预设的隐藏层中,得到第一注意力矢量和第二注意力矢量;将所述第一注意力矢量和第二注意力矢量整合至所述叠加特征信息中,得到通道增强特征;对所述通道增强特征进行空间增强,得到所述第二增强特征。4.根据权利要求3所述的文本检测方法,其特征在于,所述对所述通道增强特征进行空间增强,得到所述第二增强特征,包括:通过预设的空间注意力模块,在预设的轴的方向上,对所述通道增强特征进行全局计算,得到第一空间矢量和第二空间矢量;对所述第一空间矢量和第二空间矢量进行叠加,得到空间增强特征;对所述空间增强特征进行卷积和激活计算,得到包含空间注意力权重的空间注意力矩阵;将所述空间注意力矩阵与所述通道增强特征对应相乘,得到所述第二增强特征。5.根据权利...

【专利技术属性】
技术研发人员:赵佳鹏
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1