一种文本识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37375350 阅读:11 留言:0更新日期:2023-04-27 07:18
本发明专利技术实施例提供了一种文本识别方法、装置、电子设备及存储介质,涉及图像处理技术领域,方法包括:对待识别图像进行文本检测,确定待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像;利用预设的图像校正算法对第一图像的方向进行校正,得到校正后的第一图像,作为当前的待处理图像;判断当前的待处理图像的宽高比是否大于预设阈值;若是,则将当前的待处理图像输入预先训练的横向文本识别模型中;若否,则将当前的待处理图像输入预先训练的竖向文本识别模型中,得到表示当前的待处理图像中每一字符为预设字符的概率的置信度;基于得到的置信度,确定待识别图像中文本包含的字符。如此,能够有效地识别出图像中的文本。像中的文本。像中的文本。

【技术实现步骤摘要】
一种文本识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及图像处理
,特别是涉及一种文本识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着图像处理技术的发展,OCR(Optical Character Recognition,光学字符识别)模型能够对包含文本的图像进行识别,获取图像中文本的识别结果。
[0003]然而,在实际的场景中,图像中文本包含的字符的方向可能为横向,也可能是竖向。另外,该文本对应的文本框在图像中也可能并非为水平的,即,文本包含的各字符在图像中是倾斜的。
[0004]针对上述复杂的情况,亟需一种方法以有效地识别出图像中的文本。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种文本识别方法、装置、电子设备及存储介质,以有效地识别出图像中的文本。具体技术方案如下:
[0006]在本专利技术实施的第一方面,首先提供了一种文本识别方法,所述方法包括:
[0007]对待识别图像进行文本检测,确定所述待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像;其中,所述待识别图像中文本包含的各字符的倾斜角度一致;
[0008]利用预设的图像校正算法对所述第一图像的方向进行校正,得到校正后的第一图像,作为当前的待处理图像;其中,当前的待处理图像中文本包含的各字符的排列方向为水平或竖直的;
[0009]判断当前的待处理图像的宽高比是否大于预设阈值;
[0010]若当前的待处理图像的宽高比大于预设阈值,则将当前的待处理图像输入预先训练的横向文本识别模型中,得到表示当前的待处理图像中每一字符为预设字符的概率的置信度;其中,所述横向文本识别模型用于对包含横向字符的文本进行识别;
[0011]若当前的待处理图像的宽高比不大于预设阈值,则将当前的待处理图像输入预先训练的竖向文本识别模型中,得到表示当前的待处理图像中每一字符为预设字符的概率的置信度;其中,所述竖向文本识别模型用于对包含竖向字符的文本进行识别;
[0012]基于得到的置信度,确定当前的待处理图像中文本包含的字符,作为所述待识别图像中文本包含的字符。
[0013]在一些实施例中,所述利用预设的图像校正算法对所述第一图像的方向进行校正,得到校正后的第一图像,作为当前的待处理图像,包括:
[0014]对所述第一图像进行旋转,以使旋转后的第一图像中文本包含的各字符的排列方向为水平或竖直的,得到第二图像;按照所述第二图像中文本的最小外接矩形的大小,对所述第二图像中文本所占的区域进行仿射变换,得到当前的待处理图像;
[0015]或,按照所述第一图像中文本的最小外接矩形的大小,对所述第一图像中文本所占的区域进行仿射变换,得到第三图像;对所述第三图像进行旋转,以使旋转后的第三图像中文本包含的各字符的排列方向为水平或竖直的,得到当前的待处理图像。
[0016]在一些实施例中,在所述对待识别图像进行文本检测,确定所述待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像之前,所述方法还包括:
[0017]获取包含文本的原始图像;
[0018]对所述原始图像进行缩放,并对缩放后的原始图像进行图像增强处理,得到所述待识别图像。
[0019]在一些实施例中,所述基于得到的置信度,确定当前的待处理图像中文本包含的字符,作为所述待识别图像中文本包含的字符,包括:
[0020]判断得到的置信度是否满足预设条件;
[0021]若得到的置信度不满足预设条件,则按照预设的图像变换方式,对当前的待处理图像进行处理,以更新当前的待处理图像;并返回执行所述判断当前的待处理图像的宽高比是否大于预设阈值的步骤,直至得到的置信度满足所述预设条件;
[0022]将当前的待处理图像中文本包含的字符,确定为所述待识别图像中文本包含的字符。
[0023]在一些实施例中,所述图像变换方式包含以下至少一项:水平镜像、垂直镜像、顺时针旋转90
°
和逆时针旋转90
°

[0024]在一些实施例中,所述判断得到的置信度是否满足预设条件,包括:
[0025]对得到的当前的待处理图像中每一字符对应的各置信度进行归一化处理;
[0026]确定归一化处理后的各置信度中的最大值,作为该字符对应的预测概率;
[0027]若各字符对应的预测概率的加权和大于预设阈值,则确定得到的置信度满足预设条件;
[0028]若各字符对应的预测概率的加权和不大于预设阈值,则确定得到的置信度不满足预设条件。
[0029]在本专利技术实施的第二方面,还提供了一种文本识别装置,所述装置包括:
[0030]第一图像获取模块,用于对待识别图像进行文本检测,确定所述待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像;其中,所述待识别图像中文本包含的各字符的倾斜角度一致;
[0031]校正模块,用于利用预设的图像校正算法对所述第一图像的方向进行校正,得到校正后的第一图像,作为当前的待处理图像;其中,当前的待处理图像中文本包含的各字符的排列方向为水平或竖直的;
[0032]判断模块,用于判断当前的待处理图像的宽高比是否大于预设阈值;
[0033]第一识别模块,用于若当前的待处理图像的宽高比大于预设阈值,则将当前的待处理图像输入预先训练的横向文本识别模型中,得到表示当前的待处理图像中每一字符为预设字符的概率的置信度;其中,所述横向文本识别模型用于对包含横向字符的文本进行识别;
[0034]第二识别模块,用于若当前的待处理图像的宽高比不大于预设阈值,则将当前的待处理图像输入预先训练的竖向文本识别模型中,得到表示当前的待处理图像中每一字符
为预设字符的概率的置信度;其中,所述竖向文本识别模型用于对包含竖向字符的文本进行识别;
[0035]字符确定模块,用于基于得到的置信度,确定当前的待处理图像中文本包含的字符,作为所述待识别图像中文本包含的字符。
[0036]在一些实施例中,所述校正模块,具体用于:
[0037]对所述第一图像进行旋转,以使旋转后的第一图像中文本包含的各字符的排列方向为水平或竖直的,得到第二图像;按照所述第二图像中文本的最小外接矩形的大小,对所述第二图像中文本所占的区域进行仿射变换,得到当前的待处理图像;
[0038]或,按照所述第一图像中文本的最小外接矩形的大小,对所述第一图像中文本所占的区域进行仿射变换,得到第三图像;对所述第三图像进行旋转,以使旋转后的第三图像中文本包含的各字符的排列方向为水平或竖直的,得到当前的待处理图像。
[0039]在一些实施例中,所述装置还包括:
[0040]原始图像获取模块,用于在所述对待识别图像进行文本检测,确定所述待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像之前,获取包含文本的原始图像;
[0041]预处理模块,用于对所述原始图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:对待识别图像进行文本检测,确定所述待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像;其中,所述待识别图像中文本包含的各字符的倾斜角度一致;利用预设的图像校正算法对所述第一图像的方向进行校正,得到校正后的第一图像,作为当前的待处理图像;其中,当前的待处理图像中文本包含的各字符的排列方向为水平或竖直的;判断当前的待处理图像的宽高比是否大于预设阈值;若当前的待处理图像的宽高比大于预设阈值,则将当前的待处理图像输入预先训练的横向文本识别模型中,得到表示当前的待处理图像中每一字符为预设字符的概率的置信度;其中,所述横向文本识别模型用于对包含横向字符的文本进行识别;若当前的待处理图像的宽高比不大于预设阈值,则将当前的待处理图像输入预先训练的竖向文本识别模型中,得到表示当前的待处理图像中每一字符为预设字符的概率的置信度;其中,所述竖向文本识别模型用于对包含竖向字符的文本进行识别;基于得到的置信度,确定当前的待处理图像中文本包含的字符,作为所述待识别图像中文本包含的字符。2.根据权利要求1所述的方法,其特征在于,所述利用预设的图像校正算法对所述第一图像的方向进行校正,得到校正后的第一图像,作为当前的待处理图像,包括:对所述第一图像进行旋转,以使旋转后的第一图像中文本包含的各字符的排列方向为水平或竖直的,得到第二图像;按照所述第二图像中文本的最小外接矩形的大小,对所述第二图像中文本所占的区域进行仿射变换,得到当前的待处理图像;或,按照所述第一图像中文本的最小外接矩形的大小,对所述第一图像中文本所占的区域进行仿射变换,得到第三图像;对所述第三图像进行旋转,以使旋转后的第三图像中文本包含的各字符的排列方向为水平或竖直的,得到当前的待处理图像。3.根据权利要求1所述的方法,其特征在于,在所述对待识别图像进行文本检测,确定所述待识别图像中文本的最小外接密闭图形对应的图像区域,作为第一图像之前,所述方法还包括:获取包含文本的原始图像;对所述原始图像进行缩放,并对缩放后的原始图像进行图像增强处理,得到所述待识别图像。4.根据权利要求1所述的方法,其特征在于,所述基于得到的置信度,确定当前的待处理图像中文本包含的字符,作为所述待识别图像中文本包含的字符,包括:判断得到的置信度是否满足预设条件;若得到的置信度不满足预设条件,则按照预设的图像变换方式,对当前的待处理图像进行处理,以更新当前的待处理图像;并返回执行所述判断当前的待处理图像的宽高比是否大于预设阈值的步骤,直至得到的置信度满足所述预设条件;将当前的待处理图像中文本包含的字符,确定为所述待识别图像中文本包含的字符。5.根据权利要求4所述的方法,其特征在于,所述图像变换方式包含以下至少一项:水平镜像、垂直镜像、顺时针旋转90
°
和逆时针旋转90<...

【专利技术属性】
技术研发人员:尹天舒
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1