文本识别方法及装置制造方法及图纸

技术编号:35761770 阅读:14 留言:0更新日期:2022-12-01 13:56
本申请涉及人工智能技术领域下的文字识别技术领域,尤其涉及光学字符识别技术领域,提供了一种文本识别方法,包括:获取待识别的文本图像,所述文本图像中的各字符沿单方向延伸;根据所述文本图像获得图像特征序列,所述图像特征序列包括1*n个特征,n为自然数;根据所述图像特征序列识别文本行朝向;根据所述图像特征序列和所述文本行朝向识别出所述文本图像中的各字符。图像特征序列图像特征序列。本申请提供的技术方案可通过图像特征序列识别文本行朝向为任意角度的文本图像中的文本,且可降低识别的运算量,进而提升了识别文本的效率。效率。效率。

【技术实现步骤摘要】
文本识别方法及装置


[0001]本申请涉及人工智能
下的光学字符识别
,特别是指一种文本识别方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)是业界和学术界的重要研发领域,光学字符识别技术在文档内容提取、增强现实(Augmented Reality,AR)翻译、自动驾驶路牌识别等领域有着至关重要的作用。
[0003]光学字符识别通常分为三个步骤。第一步骤:分析出待识别的文本图像中的文本区域图像。第二步骤:将该文本区域图像的区域变换成水平矩形,因为人类的通用阅读方式为从左到右的横排阅读。第三步骤:进行文本检测以识别出该水平矩形中文本内容。在该第三步骤中,文本行朝向可分为正立形态、倒立形态、左卧倒形态、或右卧倒形态,如附图1所示。在大部分情况下,同一个字符的四种形态的像素呈现方式不同。若没有确定文本行朝向,则需要对同一个字符进行四种形态下的文本检测,这将会极大的增加运算量。
[0004]如何实现较低运算量的情况下识别文本图像中的文本,是有待解决的技术问题。

技术实现思路

[0005]鉴于现有技术的以上问题,本申请提供一种文本识别方法及装置、计算设备及存储介质,可通过图像特征序列来高效准确的识别出文本图像中的文本行朝向,进而降低了的文本识别的整体运算量。
[0006]为达到上述目的,本申请第一方面提供了一种文本识别方法,包括:
[0007]获取待识别的文本图像,所述文本图像中的各字符沿单方向延伸;
[0008]根据所述文本图像获得图像特征序列,所述图像特征序列包括1*n个特征,n为自然数;
[0009]根据所述图像特征序列识别文本行朝向;
[0010]根据所述图像特征序列和所述文本行朝向识别出所述文本图像中的各字符。
[0011]基于上述技术方案,通过本申请提供的文本识别方法,可降低文本图像在垂直方向上的特征,图像在垂直方向的特征的数量可降为1个,从而降低识别文本行朝向的运算量,在保障正确率的基础上,降低了识别文本图像的运算量的技术效果。
[0012]另一方面,文本行朝向的识别、文本图像中的各字符的识别,均基于所述图像特征序列,无需重复针对文本图像提取特征,可以有效降低整体模型大小和时延,降低了文本识别的整体运算量。
[0013]作为第一方面的一种可能的实现方式,所述根据所述图像特征序列和所述文本行朝向识别所述文本图像中的各字符,包括:
[0014]所述文本行朝向识别为横排时,使用横排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符,或
[0015]所述文本行朝向识别为竖排时,使用竖排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符。
[0016]基于上述技术方案,通过本申请提供的文本图像识别方法,采用与文本行朝向一致的文本识别模型可提高系统的运行效率。
[0017]作为第一方面的一种可能的实现方式,所述根据所述图像特征序列识别所述文本行朝向,包括:
[0018]采用至少两种方式根据所述图像特征序列识别所述文本行朝向;
[0019]所述至少两种方式识别的所述图像文本的文本行朝向相同的比例达到阈值时,以所述文本行朝向作为所识别的所述文本行朝向。
[0020]基于上述技术方案,通过本申请提供的文本识别方法,采用多种方式来识别文本行朝向,可以增加系统的鲁棒性,避免单一方式出现错误而导致最终结果受到严重影响。通过设置阈值,进一步的加强了最终结果的准确率。
[0021]作为第一方面的一种可能的实现方式,所述根据所述图像特征序列和所述文本行朝向识别所述文本中的各字符,包括:
[0022]所述文本行朝向的识别结果不确定时,分别使用横排文本识别模型、竖排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符和文本的置信度;
[0023]选择置信度高的文本的各字符作为文本识别的结果。
[0024]基于上述技术方案,通过本申请提供的文本识别方法,将图像特征序列输入到横排文本识别模型和竖排文本识别模型之中,可分别得出图像文本中的各字符的置信度,通过综合分析可分别得出文本的置信度,通过综合对比横排文本识别模型、竖排文本识别模型得出的文本的置信度,选取置信度较大的文本作为文本识别的结果。
[0025]作为第一方面的一种可能的实现方式,所述根据所述图像特征序列识别所述文本行朝向,包括:
[0026]所述至少两种方式识别的所述文本行朝向不相同时,认为所述文本行朝向识别结果不确定。
[0027]基于上述技术方案,使用至少两种文本行识别模型对图像特征序列进行分析,并根据至少两种文本行识别模型给出的分析结果作为后续操作的参考基础,当至少两种方式识别的所述文本行朝向不相同时,通过其他的方式重新确认所述文本行朝向,可增加系统的鲁棒性。
[0028]作为第一方面的一种可能的实现方式,所述至少两种方式识别的所述文本行朝向,其中之一方式包括:根据所述图像特征序列识别所述文本图像的文本行整体朝向,从而确定文本行朝向。
[0029]作为第一方面的一种可能的实现方式,所述至少两种方式识别的所述文本行朝向,其中之一方式包括:根据所述图像特征序列识别所述文本图像中各字符的朝向,并根据所述各字符的朝向获得所述文本行朝向。
[0030]基于上述技术方案,通过两种方式分别来确定文本图像的文本行朝向,相对于采用单一的方式,大大的提高了识别出的文本行朝向的准确率。
[0031]作为第一方面的一种可能的实现方式,还包括:
[0032]从源图像中分割出待识别的文本区域图像;
[0033]将所述文本区域图像分割成单行的文本图像;
[0034]将所述文本图像进行仿射变换。
[0035]基于上述技术方案,通过本申请提供的文本识别方法,避免了对源图像中与文本无关的图像占用系统资源,而且将文本图像通过仿射变换调整为统一规格的水平矩形,可为后续的处理提供便利。
[0036]本申请第二方面提供了一种文本识别装置,包括:
[0037]图像获取模块,用于获取待识别的文本图像,所述文本图像中的各字符沿单方向延伸;
[0038]图像特征序列获取模块,用于根据所述文本图像获得图像特征序列,所述图像特征序列包括1*n个特征,n为自然数;
[0039]文本行朝向识别模块,用于根据所述图像特征序列识别文本行朝向;
[0040]文本识别模块,用于根据所述图像特征序列和所述文本行朝向识别出所述文本图像中的各字符。
[0041]作为第二方面的一种可能的实现方式,所述文本识别模块具体用于:所述文本行朝向识别为横排时,使用横排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符,或所述文本行朝向识别为竖排时,使用竖排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符。
[0042]作为第二方面的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取待识别的文本图像,所述文本图像中的各字符沿单方向延伸;根据所述文本图像获得图像特征序列,所述图像特征序列包括1*n个特征,n为自然数;根据所述图像特征序列识别文本行朝向;根据所述图像特征序列和所述文本行朝向识别出所述文本图像中的各字符。2.根据权利要求1所述的方法,其特征在于,所述根据所述图像特征序列和所述文本行朝向识别所述文本图像中的各字符,包括:所述文本行朝向识别为横排时,使用横排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符,或所述文本行朝向识别为竖排时,使用竖排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述图像特征序列识别所述文本行朝向,包括:采用至少两种方式根据所述图像特征序列识别所述文本行朝向;所述至少两种方式识别的所述图像文本行朝向相同的比例达到阈值时,以所述朝向作为所识别的所述文本行朝向。4.根据权利要求3所述的方法,其特征在于,所述根据所述图像特征序列和所述文本行朝向识别所述文本中的各字符,包括:所述文本行朝向的识别结果不确定时,分别使用横排文本识别模型、竖排文本识别模型根据所述图像特征序列识别所述文本图像中的各字符和文本的置信度;选择置信度高的文本的各字符作为文本识别的结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述图像特征序列识别所述文本行朝向,包括:所述至少两种方式识别的所述文本行朝向不相同时,认为所述文本行朝向的识别结果不确定。6.根据权利要求5所述的方法,其特征在于,所述至少两种方式识别的所述文本行朝向,其中之一方式包括:根据所述图像特征序列识别所述文本图像的文本行整体朝向确定文本行朝向。7.根据权利要求5所述的方法,其特征在于,所述至少两种方式识别的所述文本行朝向,其中之一方式包括:根据所述图像特征序列识别所述文本图像中各字符的朝向,并根据所述各字符的朝向获得所述文本行朝向。8.根据权利要求1至7任一所述的方法,其特征在于,还包括:从源图像中分割出待识别的文本区域图像;将所述文本区域图像分割成单行或单列的文本图像;将所述文本图像进行仿射变换。9.一种文本识别装置,其特征在于,包括:图像获取模块,用于获取待识别的文本图像,所述文本图像中的各字符沿单方向延伸;图像特征序列获取模块,用于根据所述文本图像获得图像特征序列,所述图像...

【专利技术属性】
技术研发人员:卢自豪周正中谷萌萌
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1