图像文本检测方法、装置、存储介质和计算机程序产品制造方法及图纸

技术编号:34358610 阅读:16 留言:0更新日期:2022-07-31 07:04
本公开涉及图像文本检测方法、装置、存储介质和计算机程序产品。用于从待检测图像中识别文本区域的方法包括:将已标记出文字区域的图像作为训练数据输入到特征提取模块进行训练以得到文本行区域模型;将待检测图像输入到文本行区域模型以得到文本行区域概率图;将已标记出文本中心区域的图像作为训练数据输入到特征提取模块进行训练以得到文本中心区域模型;将待检测图像输入到文本中心区域模型以得到文本中心区域概率图;基于文本行区域阈值和文本行区域概率图从待检测图像中提取文本行区域;基于文本中心区域阈值和文本中心区域概率图从待检测图像中提取文本中心区域;以及将文本行区域和文本中心区域进行组合以得到待检测图像中的文本区域。待检测图像中的文本区域。待检测图像中的文本区域。

【技术实现步骤摘要】
图像文本检测方法、装置、存储介质和计算机程序产品


[0001]本公开总体上涉及图像处理领域,更具体地涉及一种图像文本检测方法及装置。

技术介绍

[0002]图像文本检测具有广泛的实际应用,诸如场景理解,产品搜索和自动驾驶等,因此在学术界和行业引起了广泛的关注。例如,在网络信息内容安全领域,在图像中嵌入文字信息为不良信息的传播提供了多样化且隐蔽的信息传播手段。不良的文字信息嵌入到图像中并在网络中快速传播可能会给社会的安定团结带来影响。对图像中的文本进行检测是网络信息内容治理面临的新挑战。
[0003]对文本区域的定位是文本阅读系统的重要前提,其准确性将极大地影响文本识别的性能。
[0004]随着卷积神经网络(CNN)的兴起,一般的图像文本检测算法对于具有规则的形状和长宽比的文本实例能达到良好的检测效果。通常,图像文本检测算法通过直接回归网络预测文本目标中心和文本目标先验框,再叠加尺度回归网络学习文本尺度因子,可以实现自适应输出图像中规则文本的区域。
[0005]然而,由于CNN接收域的大小和文本表示形式的限制,现有技术中的方法无法满足长文本和不规则形状文本的检测需求。在检测图像中的长文本时,因为整个文本的大小超出了文本检测器的接受范围,可能无法编码足够的信息来捕获远距离依赖关系。另一方面,现有技术中的方法大都采用相对简单的形状表示(如轴对齐的矩形、旋转的矩形或四边形的边框)来进行文本检测。当检测诸如弯曲的形状之类的不规则形状文本时,简单的形状表示可能会覆盖很多非文本区域,这将影响后续文本的识别。
[0006]因此,存在对能够检测长文本和不规则形状的文本的图像文本检测方法和装置的需要。

技术实现思路

[0007]在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0008]根据本公开的第一方面,提供了一种用于从待检测图像中识别文本区域的方法,包括:将已标记出文字区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本行区域模型;将所述待检测图像输入到文本行区域模型,以得到文本行区域概率图;将已标记出文本中心区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本中心区域模型;将所述待检测图像输入到文本中心区域模型,以得到文本中心区域概率图;基于文本行区域阈值和文本行区域概率图,从所述待检测图像中提取文本行区域;基于文本中心区域阈值和文本中心区域概率图,从所述待检测图像中提取文本中心区域;以及将文
本行区域和文本中心区域进行组合,以得到待检测图像中的文本区域。
[0009]根据本公开的第二方面,提供了一种用于从待检测图像中识别文本区域的装置,包括:特征提取模块;文本行检测模块,被配置为:将已标记出文字区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本行区域模型,以及将所述待检测图像输入到文本行区域模型,以得到文本行区域概率图;文本中心区域检测模块,被配置为:将已标记出中心区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本中心区域模型,以及将所述待检测图像输入到文本中心区域模型,以得到文本中心区域概率图;以及文本边界框生成模块,被配置为:基于文本行区域阈值和文本行区域概率图,从所述待检测图像中提取文本行区域,基于文本中心区域阈值和文本中心区域概率图,从所述待检测图像中提取文本中心区域,以及将文本行区域和文本中心区域进行组合以得到待检测图像中的文本区域。
[0010]根据本公开的第三方面,提供了一种用于从待检测图像中识别文本区域的计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据第一方面所述的方法。
[0011]根据本公开的第四方面,提供了一种用于从待检测图像中识别文本区域的计算装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行第一方面所述的方法。
[0012]根据本公开的第五方面,提供了一种用于从待检测图像中识别文本区域的计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现根据第一方面所述的方法。
[0013]利用本公开提出的方法和装置能够实现对长文本及不规则形状的文本的有效检测。
[0014]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得更为清楚。
附图说明
[0015]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0016]参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
[0017]图1示出了根据本公开的实施例的图像文本检测装置的示意图;
[0018]图2示出了根据本公开的实施例的图像文本检测装置中的共享特征提取模块的示意图;
[0019]图3示出了根据本公开的实施例的用于从待检测图像中识别文本区域的方法的流程图;
[0020]图4示出了可以实现根据本公开的实施例的计算设备的示例性配置。
具体实施方式
[0021]参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词
语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
[0022]图1示出了根据本公开的实施例的图像文本检测装置的示意图。如图1所示,图像文本检测装置可以包括特征提取模块101、文本行区域检测模块102、文本中心区域检测模块103和文本边界框生成模块104。
[0023]特征提取模块101可以被配置为从包含文本的图像中提取特征。特征提取模块101的具体结构在图2中示出。
[0024]如图2所示,特征提取模块101可以包括特征提取、特征融合、概率图生成三个部分。
[0025]特征提取部分可以被配置为采用改进的VGG

16卷积网络作为主干网络来提取图像的多级卷积特征,其中,改进的VGG

16卷积网络的池化层可以被去除。但是应理解的是,适用于根据本公开的实施例的主干网络不限于此。如图2所示,可以利用改进的VGG

16卷积网络的五个卷积阶段conv1至conv5来提取图像的特征,将各卷积阶段的所提取的特征按照元素相加的方式分别进行整合,以生成五个卷积阶段的特征图。
[0026]特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于从待检测图像中识别文本区域的方法,包括:将已标记出文字区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本行区域模型;将所述待检测图像输入到文本行区域模型,以得到文本行区域概率图;将已标记出文本中心区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本中心区域模型;将所述待检测图像输入到文本中心区域模型,以得到文本中心区域概率图;基于文本行区域阈值和文本行区域概率图,从所述待检测图像中提取文本行区域;基于文本中心区域阈值和文本中心区域概率图,从所述待检测图像中提取文本中心区域;以及将文本行区域和文本中心区域进行组合,以得到待检测图像中的文本区域。2.根据权利要求1所述的方法,其中,所述特征提取模块被配置为:利用卷积网络的多个卷积阶段提取图像的特征;将各个阶段的所提取的特征以元素相加的方式进行整合,以得到各个阶段的特征图;以及对所述多个阶段的特征图进行处理以得到融合概率图。3.根据权利要求2所述的方法,其中,对所述多个阶段的特征图进行处理以得到融合概率图包括:将特征图降维,以生成单通道的特征图;将单通道特征图进行上采样和裁剪,以得到与提取特征之前的图像具有相同大小的特征图;将经上采样和裁剪的特征图在通道维度上进行拼接;以及将拼接得到的特征图降维并输入Sigmoid激活函数,以得到融合概率图。4.根据权利要求2所述的方法,其中,所述特征提取模块采取去除池化层的VGG

16作为卷积网络。5.根据权利要求1所述的方法,其中,已标记出文本中心区域的图像采用高斯分布来限定中心区域。6.一种用于从待检测图像中识别文本区域的装置,包括:特征提取模块;文本行检测模块,被配置为:将已标记出文字区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本行区域模型,以及将所述待检测图像输入到文本行区域模型,以得到文本行区域概率图;文本中心区域检测模块,被配置为:将已标记出中心区域的图像作为训练数据,输入到特征提取模块进行训练,以得到文本中心区域模型,以...

【专利技术属性】
技术研发人员:马兆铭王铮杨迪任华汪少敏渠凯田庆华
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1