定位已识别文本行中的每个字符的方法、设备和存储介质技术

技术编号:30710100 阅读:71 留言:0更新日期:2021-11-10 11:00
本申请公开了一种用于定位已识别的文本行中的每个字符的方法和设备以及计算机可读存储介质。该方法包括:步骤S1:给所述文本行中的每个字符标记核心笔画,所述标记指示笔画属于所述文本行中的哪个字符;步骤S2:基于已标记的笔画,对与该已标记的笔画粘连的未标记的粘连笔画和未标记的孤立笔画进行标记,其中,所述孤立笔画是指在两个已标记笔画之间仅有的一个未标记笔画;和步骤S3:将前N对或前M%对彼此相隔最近的两个相邻笔画合并在一起,其中,所述两个相邻笔画没有被标记至不同的字符,以及其中,N是大于或等于1的整数,并且M是0至100之间的任意数值,重复进行步骤S2和S3,直到所有笔画都被标记到所述文本行中的字符为止。止。止。

【技术实现步骤摘要】
定位已识别文本行中的每个字符的方法、设备和存储介质


[0001]本公开内容涉及文本识别的领域,并且具体地涉及对已识别的文本中的每个字符进行定位。

技术介绍

[0002]单字定位算法是光学字符识别(OCR)和场景字符识别(STR)领域内的一个长期、基本而又富有挑战的研究问题。一个好的单字定位算法可以提高文本行内容的字符识别、标记和分类的精度。
[0003]至今为止,已经提出了很多种关于单字定位的算法。这些算法主要可以分为以下四种:基于边缘的方法、基于纹理的方法、基于连通域(CC)的方法和基于深度学习算法的方法。其中,基于边缘的方法主要聚焦在如何利用文本与背景之间高对比度来提取文本,然而这种方法会受到阴影和高光的影响。类似地,基于纹理的方法利用纹理分析算法对文本的分布区域进行定位,常见的有:空间上的变化、Gabor滤波和小波变换等。基于CC的方法则是对文本行图像进行连通域分析,从而提取出可能的字符,并进一步地将这些字符区域集合成一段文本。以上这些方法主要着重于如何从自然场景图像中提取出字符的分布区域,但是并不能直接定位出每个字符的具体区域。在最近几年中,由于深度学习算法的高速发展,神经网络,比如卷积神经网络(CNN),越来越频繁地被用来对文本行中的字符进行识别和定位。
[0004]进一步地,卷积递归神经网络(CRNN)是一种新型和非常有效的识别算法,它是一种端到端的通用框架,非常适合于任意长度的序列场景。因此,CRNN因其具有很高的识别精度而在OCR领域内被广泛使用。然而,CRNN的单字定位性能并不高,而且常常带有较为严重的误差,因此还需要进一步的改善。

技术实现思路

[0005]在下文中给出了关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0006]根据本专利技术的一个方面,提供了一种用于定位已识别的文本行中的每个字符的方法。该方法包括:步骤S1:给所述文本行中的每个字符标记核心笔画,所述标记指示笔画属于所述文本行中的哪个字符;步骤S2:基于已标记的笔画,对与所述已标记的笔画粘连的未标记的粘连笔画和未标记的孤立笔画进行标记,其中,所述孤立笔画是指在两个已标记笔画之间仅有的一个未标记笔画;和步骤S3:将前N对或前M%对彼此相隔最近的两个相邻笔画合并在一起,其中,所述两个相邻笔画没有被标记至不同的字符,以及其中,N是大于或等于1的整数,并且M是0至100之间的任意数值,重复进行步骤S2和S3,直到所有笔画都被标记到所述文本行中的字符为止。
[0007]根据本专利技术的另一个方面,提供了一种用于定位已识别的文本行中的每个字符的设备,包括:第一标记装置,其被配置成给所述文本行中的每个字符标记核心笔画,所述标记指示笔画属于所述文本行中的哪个字符;第二标记装置,其被配置成基于已标记的笔画,对与所述已标记的笔画粘连的未标记的粘连笔画和未标记的孤立笔画进行标记,其中,所述孤立笔画是指在两个已标记笔画之间仅有的一个未标记笔画;和合并装置,其被配置成将前N对或前M%对彼此相隔最近的两个相邻笔画合并在一起,其中,所述两个相邻笔画没有被标记至不同的字符,以及其中,N是大于或等于1的整数,并且M是0至100之间的任意数值,其中,所有笔画都被标记到所述文本行中的字符。
[0008]根据本专利技术的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
[0009]通过本专利技术的用于定位已识别的文本行中的每个字符的方法和设备,使得能够提高单字符的定位精度,从而有利于与其他识别引擎加以结合以进一步提高文本识别精度。
[0010]通过以下结合附图对本专利技术的优选实施方式的详细说明,本专利技术的这些以及其他优点将更加明显。
附图说明
[0011]为了进一步阐述本公开内容的以上和其它优点和特征,下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本公开内容的典型示例,而不应看作是对本公开内容的范围的限定。在附图中:
[0012]图1示出了根据一个实施方式的、在标记核心笔画之前对已识别文本行中的每个字符的结束位置进行修正的方法的流程图;
[0013]图2a示出了通过CRNN识别获得的每个时间戳候选项的soft-max值;
[0014]图2b示出了CRNN和过切分结果;
[0015]图2c示出了修正后的每个字符的新的结束位置;
[0016]图3示出了根据本专利技术的一个实施方式的、用于定位已识别的文本行中的每个字符的方法;
[0017]图4示出了根据一个实施方式的标记核心笔画的流程图;
[0018]图5示出了根据一个实施方式的标记粘连笔画和孤立笔画的流程图;
[0019]图6示出了根据一个实施方式的合并前N对或前M%对彼此相隔最近的两个相邻笔画的流程图;
[0020]图7a示例性地示出了标记核心笔画的结果;
[0021]图7b示例性地示出了粘连笔画分类的结果;
[0022]图7c示例性地示出了孤立笔画分类的结果;
[0023]图7d示例性地示出了合并前N对或前M%对相隔最近的两个相邻笔画的结果;
[0024]图7e示例性地示出了所有笔画都被标记到已识别字符的结果;
[0025]图8是根据一个实施方式的用于定位已识别的文本行中的每个字符的设备的框图;
[0026]图9是其中可以实现根据本专利技术的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。
具体实施方式
[0027]在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0028]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
[0029]如前文所述,现有的文本识别方法在单字定位性能方面不令人满意。
[0030]为了克服现有技术的缺陷,本专利技术提出了一种基于CRNN和过切分算法的新型单字定位算法。首先,使用CRNN对手写单行文本行进行识别,并定位出每个字符的位置。这一定位结果相对粗糙,而且只能提供一个大概的字符本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于定位已识别的文本行中的每个字符的方法,包括:步骤S1:给所述文本行中的每个字符标记核心笔画,所述标记指示笔画属于所述文本行中的哪个字符;步骤S2:基于已标记的笔画,对与所述已标记的笔画粘连的未标记的粘连笔画和未标记的孤立笔画进行标记,其中,所述孤立笔画是指在两个已标记笔画之间仅有的一个未标记笔画;和步骤S3:将前N对或前M%对彼此相隔最近的两个相邻笔画合并在一起,其中,所述两个相邻笔画没有被标记至不同的字符,以及其中,N是大于或等于1的整数,并且M是0至100之间的任意数值,重复进行步骤S2和S3,直到所有笔画都被标记到所述文本行中的字符为止。2.根据权利要求1所述的方法,其中,所述标记核心笔画依次包括:将笔画范围包含或者被包含于所述文本行中的字符的识别范围并且与该字符的核心范围重叠的笔画标记为该字符的核心笔画,对于所述文本行中的仍未标记核心笔画的字符,将与该字符的核心范围重叠的未标记笔画标记为该字符的核心笔画,以及对于所述文本行中的仍未标记核心笔画的字符,将与该字符的识别范围具有最大重叠比例的未标记笔画标记为该字符的核心笔画。3.根据权利要求2所述的方法,其中,如果与所述字符的核心范围重叠的笔画同时被标记为多个字符的核心笔画,则不将该笔画标记为任何字符的核心笔画,以及其中,如果笔画范围包含或者被包含于所述字符的识别范围并且与所述字符的核心范围重叠的笔画、或者与所述字符的识别范围具有最大重叠比例的笔画同时被标记为多个字符的核心笔画,则将该笔画标记为最左侧字符的核心笔画。4.根据权利要求1所述的方法,其中,基于所述已标记的笔画,对所述未标记的粘连笔画和所述未标记的孤立笔画进行标记包括:如果所述未标记的粘连笔画与所述已标记的笔画粘连,则将该未标记的粘连笔画合并至该已标记的笔画;以及将所述未标记的孤立笔画合并至与其距离最近的那个已标记的笔画;以及重复以上步骤,直到所有粘连笔画和孤立笔画都被标记为止。5.根据权利要求1所述的方法,其中,所述步骤S3还包括:将在步骤S1和步骤S2中得到的所有具有相同标记的笔画合并在一起;计算两个相邻笔画之间的距离;和将前N对或前M%对彼此相隔最近的两个相邻笔画合并在一起。6.根据权利要求4或5所述的方法,其中,所述距离基于两个相邻笔画中的一个笔画的最左侧位置和另一个笔画的最左侧位置之中的最大值与所述一个笔画的最右侧位置和所述另一个笔画的最右侧位置之中的最小值之差。7.根据权利要求1至5中任一项所述的方法,其中:如果一个笔画与其两个相邻笔画的距离之差的绝对值小于第一阈值,...

【专利技术属性】
技术研发人员:张明捷汪留安孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1