用于文本检测的方法和装置制造方法及图纸

技术编号:16605865 阅读:38 留言:0更新日期:2017-11-22 15:46
本发明专利技术提供一种用于文本检测的方法和装置。本发明专利技术用于对自然场景图像中的文本区域进行定位。其公开内容涉及文本检测方法和装置、及文本信息提取方法和系统。该用于检测图像中的文本区域的方法包括:根据输入图像生成组件;基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;根据连接到各组件的组件连接的方向分布,针对由组件连接而连接的各组件确定主方向,作为各组件的主方向;基于组件的主方向与连接组件的组件连接的方向之间的差,将由组件连接而连接的组件分组为至少一个组件组;以及基于至少一个组件组,生成文本区域。与现有技术相比,本发明专利技术能够对图像中的文本区域精确定位,并且检测结果可以进一步用于文本识别。

Method and device for text detection

The present invention provides a method and device for text detection. The method is used for locating the text region in the natural scene image. Its public content involves text detection methods and devices, and text information extraction methods and systems. The method for text detection in images includes: according to the input image generation component; feature similarity between any two components based on the value of generation, connect the two components of the component connection; according to the component of each component is connected to the connecting direction for distribution by the component connection and connection components to determine the main direction as the main direction, the various components of the main components; based on the direction of connection and component connecting components in the direction of the poor, will be connected components grouping of components connected to at least one component group; and on the basis of at least one component group generated text area. Compared with the existing techniques, the present method can precisely locate the text region in the image, and the detection result can be further used for text recognition.

【技术实现步骤摘要】
用于文本检测的方法和装置
本专利技术涉及计算机视觉、图像处理并理解,尤其涉及一种多方向文本检测方法和装置。
技术介绍
在自然场景图像或视频帧中的文本携带有用于视觉内容理解和检索的重要信息。在图像中,特别是在自然图像或视频帧中提取文本信息或者检测文本,对许多计算机视觉应用(例如,对视觉障碍人士或外国人的计算机化援助、对图像或视频的自动检索以及城市环境中的机器人导航等)来说是至关重要的。不过,在自然场景中的文本检索是一个难题,主要的挑战在于具有不同的字体、大小、倾斜角或失真等的多样化的文本。像不均匀的照度和反射、照明不足条件以及复杂的背景等环境因素增加更多的复杂性。用于在自然场景中进行文本区域检测的常用方法一般遵循如下的主要步骤:根据图像生成分离的组件,并基于某些规则将组件分组以生成组件组,然后验证组件组以移除非文本组,并通过使用剩余的文本组来恢复文本区域(例如文本行、文字等)。为了更好的性能,利用一组特征对所生成的组件进行过滤,以排除非文本组件。通常,从组件中提取几何特征和纹理特征,并把它们馈送到用于估算组件的文本可能性的分类器。当对剩余的组件一起分组以生成组件组时,通常是基于不同组件之间的相似度测量或者空间距离。此外,组件分组步骤对于文本检测是必须的也是至关重要的,其中,对于将组件归类为文本部分,组件与其他邻近组件相关是最重要的。所以,确定哪些组件属于同一文本部分是很大的挑战。同时,文本的布局通常保持着复杂的布局,并且在自然场景中一般存在多方向文本,因此,如何正确地对文本组件进行分组,对于文本区域检测性能是至关重要的。在相关文献中,公开了多种组件分组方法。例如,在公开号为CN103136523A的中国专利申请中,公开了一种自然图像中的任意方向文本行检测方法。该方法首先检测候选文本区域;然后找到候选文本行的三个种子区域(种子组件)并通过候选文本行扩展到行中的所有区域;最后过滤并移除非文本行。另一示例,即专利号为US6798895B1的美国专利,公开了一种字符串提取方法。该方法基于连接组件的延伸的边界框(水平地或垂直地)来处理水平的和垂直的文本行。此外,《IEEETransactionsonPatternAnalysisandMachineIntelligence》刊登的出版物(X.Yin,W.Pei,X.Yin,J.Zhang,andH.Hao,《Multi-orientationscenetextdetectionwithadaptiveclustering》)中,公开了基于文本行的方向的组件分组方法。该方法首先基于组件的特征相似度,在组件之间生成组件连接;然后基于方向聚类分析所有连接的方向,并自动确定文本行的可能方向。因此,该方法在组件分组期间自动检测文本行的方向,而不是假设所有文本行都分布在某一特定方向上。然而,在文本的布局很复杂的情况下,或者在具有不同方向的多个文本行位于一个局部区域的情况下,上面公开的方法只能检测一个特定方向中的文本,使得在不同文本行内的组件被错误地分组到同一组,并导致错误的检测结果。术语释义下面的术语在本文中频繁地出现,并以下面的详细描述来限定:组件是指字符或噪声的基本元素,通常涉及具有相似的颜色、灰度或笔划宽度并在空间上连接的一组像素。组件连接是指两个相似组件之间的逻辑连接,并且仅在两个组件之间的组件相似度大于预定义的阈值的情况下生成组件连接。组件主方向是指能够将连接到组件的所有组件连接的主要分布特征化的方向。文本组件是指字符的基本元素。组件组是指具有相似的外观并线性对齐的一组组件,并且根据人的感知应当属于同一文本行。这其中,组件组至少由两个组件构成。文本组是指由文本组件构成的组件组。文本区域是指边界框或文本组的四边形,即文本检测的输出。
技术实现思路
因此,为了提高在图像中、尤其是在自然场景图像中(例如在广告牌、海报及徽标等中)的文本检测的性能,提出了一种新的多方向文本检测方法和装置。根据本专利技术的一个方面,提供一种文本检测方法,所述文本检测方法包括:组件生成步骤,用于根据所述输入图像生成组件;组件连接生成步骤,用于基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;组件主方向确定步骤,用于根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;组件分组步骤,用于基于所述组件的主方向与连接所述组件的组件连接的方向之间的差,将由所述组件连接而连接的组件分组为至少一个组件组;以及文本区域生成步骤,用于基于所述至少一个组件组,生成文本区域。本专利技术旨在采用组件连接的方向分布来将组件分组为组件组。本专利技术主要的创新点在于组件分组模块,该组件分组模块包括确定组件主方向,并基于组件连接方向与组件主方向之间的关系移除某些组件连接。例如在文本的布局很复杂的情况下,具有多方向的多文本行在图像的局部区域内混合在一起。本专利技术能够对各单文本行的独立区域进行定位,并利用最小四边形来指示其区域。检测结果能够从各种方面进一步利于文本识别处理,例如提供各文本行的位置和方向信息,从而将识别模块从复杂的布局分析预处理中解放出来。附图说明图1是示出进行本专利技术的实施例的计算机系统的硬件构造的框图。图2是示出文本检测装置的构造的框图。图3是示出由文本检测装置进行的文本检测的流程图。图4是示出用于根据本专利技术的实施例确定组件主方向的方法的流程图。图5A示出了具有组件连接的组件的例示性示例。图5B示出了表示在欧氏空间(Euclideanspace)中的组件连接的例示性示例。图5C示出了表示在极坐标空间(Polarspace)中的组件连接的例示性示例。图5D示出了组件连接的方向直方图的例示性示例。图5E示出了组件连接的加权方向直方图的例示性示例。图6是示出用于根据本专利技术的其他实施例确定组件主方向的方法的流程图。图7A至图7B示出了扫描窗口的例示性示例。图8A至图8D示出了用于确定使冲突函数最小化的扫描窗口位置的例示性的图。图9是示出用于根据本专利技术的实施例移除某些组件连接的方法的流程图。图10A示出了评估组件连接方向与组件主方向之间的冲突的例示性示例。图10B示出了组件连接的冲突因子的例示性示例。图11A至图11E示出了根据冲突因子移除组件连接的例示性示例。图12A至图12E示出了根据连接移除条件和终止条件用于组件连接移除的迭代处理的例示性示例。图13是示出根据本专利技术的实施例的文本信息提取方法的流程图。图14是示出根据本专利技术的实施例的文本信息提取系统的框图。具体实施方式参照如上所列的附图,这部分描述特殊实施例及其详细构造和操作。请注意,仅通过例示的方式阐明下文中要描述的实施例,但不限于此,因此该些实施例并不限制本专利技术的范围,并能够在本专利技术的范围内改为各种形式。本领域技术人员根据本文中的教导能够识别出还存在一系列的本文中描述的实施例的等同例。图1是示出进行本专利技术的实施例的计算机系统的硬件构造的框图。如图1所示,系统至少包括计算机100,计算机100包括CPU101、RAM102、ROM103、系统总线104、输入设备105、输出设备106和驱动器107。在一个实施例中,计算机100可以是图像识别系统。请注意,计算机100可以包括一个或多个计算机,且多个计算本文档来自技高网
...
用于文本检测的方法和装置

【技术保护点】
一种文本检测方法,其用于检测输入图像中的文本区域,所述文本检测方法包括:组件生成步骤,用于根据所述输入图像生成组件;组件连接生成步骤,用于基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;组件主方向确定步骤,用于根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;组件分组步骤,用于基于所述组件的主方向与连接所述组件的组件连接的方向之间的差,将由所述组件连接而连接的组件分组为至少一个组件组;以及文本区域生成步骤,用于基于所述至少一个组件组,生成文本区域。

【技术特征摘要】
1.一种文本检测方法,其用于检测输入图像中的文本区域,所述文本检测方法包括:组件生成步骤,用于根据所述输入图像生成组件;组件连接生成步骤,用于基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;组件主方向确定步骤,用于根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;组件分组步骤,用于基于所述组件的主方向与连接所述组件的组件连接的方向之间的差,将由所述组件连接而连接的组件分组为至少一个组件组;以及文本区域生成步骤,用于基于所述至少一个组件组,生成文本区域。2.根据权利要求1所述的文本检测方法,其中所述组件主方向确定步骤还包括:移除步骤,用于基于至少一个组件连接的方向与由所述至少一个组件连接而连接的组件的主方向之间的差,移除所述至少一个组件连接;重新确定步骤,用于针对由剩余的组件连接而连接的各组件重新确定主方向。3.根据权利要求1或2所述的文本检测方法,其中,所述组件连接生成步骤还包括基于所述两个组件之间的空间距离来生成所述组件连接。4.根据权利要求1或2所述的文本检测方法,其中,所述组件主方向确定步骤基于组件连接的方向分布的方向直方图,所述组件主方向确定步骤还包括:将组件连接的方向的角度归一化到预定义的范围;生成组件连接的方向的归一化角度的直方图;以及将具有最高直方图柱中的方向角的方向分配为组件主方向。5.根据权利要求4所述的文本检测方法,其中,基于组件连接的特征,对组件连接的方向的角度进行加权。6.根据权利要求1或2所述的文本检测方法,其中,所述组件主方向确定步骤基于扫描窗口,所述组件主方向确定步骤还包括:定义组件连接的扫描窗口和冲突函数;确定使组件连接的所述冲突函数最小化的所述扫描窗口的位置;以及将具有最小冲突函数值的扫描窗口的位置分配为组件主方向。7.根据权利要求6所述的文本检测方法,其中,所述扫描窗口是在方向空间中的滑动窗口,并通过下述形状参数中的至少一个来描述:1)子窗口的数量;2)不同子窗口之间的距离;3)各子窗口的大小;4)用来评估所述扫描窗口内或所述扫描窗口外部的方向之间的差的距离函数。8.根据权利要求2所述的文本检测方法,其中,所述移除步骤还包括:评估组件连接方向与组件主方向之间的冲突;以及移除满足移除条件的组件连接。9.根据权利要求8所述的文本检测方法,所述文本检测方法还包括基于各组件连接的方向和组件主方向,针对各组件连接计算冲突因子。10.根据权利要求9所述的文本检测方法,其中,所述移除条件是下述条件中的至少一个:1)所述冲突因子大于预定义阈值;2)组件连接的所述冲突因子是所有组件连接的冲突因子中最大的。11.根据权利要求9所述的文本检测方法,所述文本检测方法还包括判断是否终止组件连接移除,其中,终止条件是下述条件中的至少一个:1)基于所述移除条件,没有移除组件连接;2)所有组件连接的所述冲突因子都小于预定义阈值;3)算法达到预定义迭代次数。12.一种文本检测装置,其用于检测输入图像中的文本区域,所述文本检测装置包括:组件生成单元,其被构造为根据所述输入图像生成组件;组件连接生成单元,其被构造为基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件...

【专利技术属性】
技术研发人员:马彬
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1