定位已识别文本行中的每个字符的方法、设备和存储介质技术

技术编号：30710100 阅读：71 留言：0更新日期：2021-11-10 11:00

本申请公开了一种用于定位已识别的文本行中的每个字符的方法和设备以及计算机可读存储介质。该方法包括：步骤S1：给所述文本行中的每个字符标记核心笔画，所述标记指示笔画属于所述文本行中的哪个字符；步骤S2：基于已标记的笔画，对与该已标记的笔画粘连的未标记的粘连笔画和未标记的孤立笔画进行标记，其中，所述孤立笔画是指在两个已标记笔画之间仅有的一个未标记笔画；和步骤S3：将前N对或前M％对彼此相隔最近的两个相邻笔画合并在一起，其中，所述两个相邻笔画没有被标记至不同的字符，以及其中，N是大于或等于1的整数，并且M是0至100之间的任意数值，重复进行步骤S2和S3，直到所有笔画都被标记到所述文本行中的字符为止。止。止。

全部详细技术资料下载

【技术实现步骤摘要】
定位已识别文本行中的每个字符的方法、设备和存储介质

[0001]本公开内容涉及文本识别的领域，并且具体地涉及对已识别的文本中的每个字符进行定位。

技术介绍

[0002]单字定位算法是光学字符识别(OCR)和场景字符识别(STR)领域内的一个长期、基本而又富有挑战的研究问题。一个好的单字定位算法可以提高文本行内容的字符识别、标记和分类的精度。
[0003]至今为止，已经提出了很多种关于单字定位的算法。这些算法主要可以分为以下四种：基于边缘的方法、基于纹理的方法、基于连通域(CC)的方法和基于深度学习算法的方法。其中，基于边缘的方法主要聚焦在如何利用文本与背景之间高对比度来提取文本，然而这种方法会受到阴影和高光的影响。类似地，基于纹理的方法利用纹理分析算法对文本的分布区域进行定位，常见的有：空间上的变化、Gabor滤波和小波变换等。基于CC的方法则是对文本行图像进行连通域分析，从而提取出可能的字符，并进一步地将这些字符区域集合成一段文本。以上这些方法主要着重于如何从自然场景图像中提取出字符的分布区域，但是并不能直接定位出每个字符的具体区域。在最近几年中，由于深度学习算法的高速发展，神经网络，比如卷积神经网络(CNN)，越来越频繁地被用来对文本行中的字符进行识别和定位。
[0004]进一步地，卷积递归神经网络(CRNN)是一种新型和非常有效的识别算法，它是一种端到端的通用框架，非常适合于任意长度的序列场景。因此，CRNN因其具有很高的识别精度而在OCR领域内被广泛使用。然而，CRNN的单字定位性能并不高，而...

【技术保护点】

【技术特征摘要】
1.一种用于定位已识别的文本行中的每个字符的方法，包括：步骤S1：给所述文本行中的每个字符标记核心笔画，所述标记指示笔画属于所述文本行中的哪个字符；步骤S2：基于已标记的笔画，对与所述已标记的笔画粘连的未标记的粘连笔画和未标记的孤立笔画进行标记，其中，所述孤立笔画是指在两个已标记笔画之间仅有的一个未标记笔画；和步骤S3：将前N对或前M％对彼此相隔最近的两个相邻笔画合并在一起，其中，所述两个相邻笔画没有被标记至不同的字符，以及其中，N是大于或等于1的整数，并且M是0至100之间的任意数值，重复进行步骤S2和S3，直到所有笔画都被标记到所述文本行中的字符为止。2.根据权利要求1所述的方法，其中，所述标记核心笔画依次包括：将笔画范围包含或者被包含于所述文本行中的字符的识别范围并且与该字符的核心范围重叠的笔画标记为该字符的核心笔画，对于所述文本行中的仍未标记核心笔画的字符，将与该字符的核心范围重叠的未标记笔画标记为该字符的核心笔画，以及对于所述文本行中的仍未标记核心笔画的字符，将与该字符的识别范围具有最大重叠比例的未标记笔画标记为该字符的核心笔画。3.根据权利要求2所述的方法，其中，如果与所述字符的核心范围重叠的笔画同时被标记为多个字符的核心笔画，则不将该笔画标记为任何字符的核心笔画，以及其中，如果笔画范围包含或者被包含于所述字符的识别范围并且与所述字符的核心范围重叠的笔画、或者与所述字符的识别范围具有最大重叠比例的笔画同时被标记为多个字符的核心笔画，则将该笔画标记为最左侧字符的核心笔画。4.根据权利要求1所述的方法，其中，基于所述已标记的笔画，对所述未标记的粘连笔画和所述未标记的孤立笔画进行标记包括：如果所述未标记的粘连笔画与所述已标记的笔画粘连，则将该未标记的粘连笔画合并至该已标记的笔画；以及将所述未标记的孤立笔画合并至与其距离最近的那个已标记的笔画；以及重复以上步骤，直到所有粘连笔画和孤立笔画都被标记为止。5.根据权利要求1所述的方法，其中，所述步骤S3还包括：将在步骤S1和步骤S2中得到的所有具有相同标记的笔画合并在一起；计算两个相邻笔画之间的距离；和将前N对或前M％对彼此相隔最近的两个相邻笔画合并在一起。6.根据权利要求4或5所述的方法，其中，所述距离基于两个相邻笔画中的一个笔画的最左侧位置和另一个笔画的最左侧位置之中的最大值与所述一个笔画的最右侧位置和所述另一个笔画的最右侧位置之中的最小值之差。7.根据权利要求1至5中任一项所述的方法，其中：如果一个笔画与其两个相邻笔画的距离之差的绝对值小于第一阈值，...

【专利技术属性】
技术研发人员：张明捷，汪留安，孙俊，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人