文本检测方法、装置、电子设备及存储装置制造方法及图纸

技术编号:24458144 阅读:24 留言:0更新日期:2020-06-10 16:10
一种文本检测方法,应用于文本检测技术领域,包括:提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图,将该多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图,根据该级联文本特征图,预测该待检测图像中的文本区域和文本中心区域,采用形状感知的聚类算法,根据该文本区域和文本中心区域,重建得到该待检测图像中的精确的文本框。本申请还提供了一种文本检测装置、电子设备及存储装置,可从场景图像中检测出任意形状的文本,提升文本检测效果。

Text detection method, device, electronic equipment and storage device

A text detection method is applied in the field of text detection technology, including: extracting text features of multiple scales of the image to be detected, obtaining text feature maps of multiple scales, cascading the text feature maps of multiple scales, obtaining cascaded text feature maps containing multiple scales of information, and predicting the text area in the image to be detected according to the cascaded text feature map And the text center region, using the shape aware clustering algorithm, according to the text region and the text center region, the accurate text box in the image to be detected is reconstructed. The application also provides a text detection device, an electronic device and a storage device, which can detect any shape of text from the scene image and improve the text detection effect.

【技术实现步骤摘要】
文本检测方法、装置、电子设备及存储装置
本申请涉及文本检测领域,尤其涉及一种文本检测方法、装置、电子设备及存储装置。
技术介绍
场景文本检测是指从自然场景图像中定位出其中包含的所有文本,是文本识别的前提步骤,在图像检索,场景理解,自动驾驶和文本翻译等领域有很多应用。主流的文本检测方法可以大致分为基于回归和基于分割两类方法。这些方法存在两个主要的问题:1、由于缺乏多尺度感受野,它们对于多尺度文本的检测效果不好;2、由于相邻文本的边界框可能存在重叠,因此经常会错误地将靠得近的几个文本检测为一个。
技术实现思路
本申请的主要目的在于提供一种文本检测方法、装置、电子设备及存储装置,可提升文本检测效果。为实现上述目的,本申请实施例第一方面提供一种文本检测方法,包括:提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建得到所述待检测图像中的精确的文本框。可选的,所述文本区域中的文本置信度为[0,1]之间的实数。可选的,所述提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图包括:采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。可选的,所述多种不同尺度包括1×1、3×3、5×5、7×7。可选的,所述将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图之前,包括:将所述多种尺度的文本特征图分别经过上采样到1/4所述待检测图像的大小。可选的,所述根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域包括:使用1×1卷积将所述级联文本特征图的通道数变成2,得到相同大小的两个所述级联文本特征图;将相同大小的两个所述级联文本特征图分别上采样到所述待检测图像的大小后,在相同大小的两个所述级联文本特征图中分别提取文本区域和文本中心区域。本申请实施例第二方面提供一种文本检测装置,包括:提取模块,用于提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;级联模块,用于将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;预测模块,用于根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;重建模块,用于采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建得到所述待检测图像中的精确的文本框。可选的,所述文本区域中的文本置信度为[0,1]之间的实数。本公开实施例第三方面提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行本公开实施例第一方面所述的文本检测方法。本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开实施例第一方面所述的文本检测方法。从上述本申请实施例可知,本公开提供的文本检测方法、装置、电子设备及存储装置,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图,将该多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图,根据该级联文本特征图,预测该待检测图像中的文本区域和文本中心区域,采用形状感知的聚类算法,根据该文本区域和文本中心区域,重建得到该待检测图像中的精确的文本框,可从场景图像中检测出任意形状的文本,提升文本检测效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的文本检测方法的流程示意图;图2为本申请一实施例提供的文本检测装置的结构示意图;图3示出了一种电子设备的硬件结构框图。具体实施方式为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参阅图1,图1为本申请一实施例提供的文本检测方法的流程示意图,该方法主要包括以下步骤:S101、提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;S102、将该多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;S103、根据该级联文本特征图,预测该待检测图像中的文本区域和文本中心区域;S104、采用形状感知的聚类算法,根据该文本区域和文本中心区域,重建得到该待检测图像中的精确的文本框。在本申请其中一个实施例中,该文本区域中的文本置信度为[0,1]之间的实数。因此,与传统的基于分割的文本检测方法将文本框内的每个点的文本置信度都统一地视为1不同,我们将文本区域的文本置信度视为是[0,1]之间的实数值,越靠近文本框的中心点的地方则文本置信度越趋向于1,即说明这个位置越可能是文本,而背景以及文本边框的得分为0,因此,可以通过特定的阈值来有效地将靠得近的几个文本框分隔开。在本申请其中一个实施例中,步骤S101包括:采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。其中,在文本特征提取的过程中,使用的主干网络是ResNet50,并且在ResNet50的stage2,stage3,stage4之后采用多种不同尺度的池化操作,目的是获取多尺度感受野,提取多尺度的文本特征,从而增强网络检测尺度变化大的文本的能力。在本申请其中一个实施例中,该多种不同尺度包括1×1、3×3、5×5、7×7。在本申请其中一个实施例中,步骤S102之前,包括:将该多种尺度的文本特征图分别经过上采样到1/4该待检测图像的大小。在本申请其中一个实施例中,该步骤S103包括:使用1×1卷积将该级联文本特征图的通道数变成2,得到相同大小的两个该级联文本特征图;将相同大小的两个该级联文本特征图分别上采样到该待检测图像的大小后,在相同大小的两个该级联文本特征图中分别提取文本区域和文本中心区域。在本申请实施例中,与现有方法相比,该方法通过提取多尺度特征,使得网络能检测尺度变化大的多尺度文本,从而增强网络对于极小文本以及大文本的检测能力;其次,与现有的基于分割的文本检测方法将文本区域的所有像素的文本置信度统一视为1不同,我们创造性地将文本区域的文本置信度当作是[0,本文档来自技高网...

【技术保护点】
1.一种文本检测方法,其特征在于,包括:/n提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;/n将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;/n根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;/n采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建所述待检测图像中的精确的文本框。/n

【技术特征摘要】
1.一种文本检测方法,其特征在于,包括:
提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;
采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建所述待检测图像中的精确的文本框。


2.根据权利要求1所述的文本检测方法,其特征在于,所述文本区域中的文本置信度为[0,1]之间的实数。


3.根据权利要求1或2所述的文本检测方法,其特征在于,所述提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图包括:
采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。


4.根据权利要求3所述的文本检测方法,其特征在于,所述多种不同尺度包括1×1、3×3、5×5、7×7。


5.根据权利要求1或2所述的文本检测方法,其特征在于,所述将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图之前,包括:
将所述多种尺度的文本特征图分别经过上采样到1/4所述待检测图像的大小。


6.根据权利要求1或2所述的文本检测方法,其特征在于,所述根据所述级联文本特征图,预测所述待...

【专利技术属性】
技术研发人员:张勇东周宇谢洪涛
申请(专利权)人:中国科学技术大学北京中科研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1