自然场景下的图像文字识别方法、系统与计算机存储介质技术方案

技术编号：40839535 阅读：1 留言：0更新日期：2024-04-01 15:05

本发明专利技术提供一种自然场景下的图像文字识别方法、系统与计算机存储介质，该图像文字识别方法包括：接收输入的原始图像；使用文本检测模型识别输出文字区域及文字方向信息；非极大值抑制处理，筛选出得分超过预设值的文字区域，获取图像区域并裁剪图像；将裁剪图像旋转至水平；对旋转后的裁剪图像进行插值缩放和填充处理；将裁剪图像输入基于RCNN与Transformer的文字内容识别模型，输出识别结果；最后基于识别结果，获取到不同标签位置最大得分，通过搜索解码的方式，求取对应的文字并输出。通过本发明专利技术可实现文字区域、文字方向以及文字内容融合识别，可提高文字识别的鲁棒性，提高识别生僻字和旋转角度较大的文字的准确性和精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图文识别，具体而言涉及一种自然场景下的图像文字识别方法、系统与计算机存储介质。

技术介绍

1、随着图像处理能力的不断增强，对于不同场景下的文字识别能力不断提高，图像扫描识别(ocr)技术已经在各个不同的领域得到了广泛的应用，包括交通场景、票据场景、生活场景、教育办公场景、医疗场景等，可用于进行证件/卡识别、车牌识别、文档文字识别、街牌识别、检测检验报告识别等等。

2、现有的识别技术面临着中文文字结构复杂，汉字种类多，场景丰富，部分文字非常相近等问题，对于通用的中文ocr识别较为匮乏，而且存在着诸多问题，例如识别场景或者字体固定，对英文识别和阿拉伯数字识别较为精准和友好，但识别的汉字种类少、识别准确率低。例如，以简易图像文字识别(easy ocr)技术为例，其网络结构为文字区域检测、文字识别网络两部分，该技术包含了数十种文字识别技术，但经实际测试，简易图像文字识别对于中文识别部分效果较差，准确性偏低，很多生僻字难以检测出来，同时只能检测横排文字，无法应用于旋转角度较大的文字检测。又如现有技术中提出的飞桨图像文字识别算法(paddle ocr)，作为国产的图像文字识别算法，对于中文的识别准确率有所提升，但对于部分生僻字以及不常用字依然无法识别，同时对于字体复杂的情况也精度较低。

技术实现思路

1、针对现有技术存在的技术问题，本专利技术目的在于提供一种基于文字区域、文字方向以及文字内容融合识别的图像文字识别方法，旨在提高文字识别的鲁棒性，提高识别生僻字和旋转角度较大的文字的准确性和精度。

2、根据本专利技术目的的第一方面，提出一种的自然场景下的图像文字识别方法，包括以下步骤：

3、步骤s101、接收输入的原始图像；

4、步骤s102、使用基于连接预选框网络的文本检测模型识别所述原始图像，获得原始图像中的文字区域以及文字方向信息；

5、步骤s103、对原始图像中的文字区域进行非极大值抑制处理，筛选出得分超过预设值的文字区域，获取其所在位置的图像区域并裁剪出图像；

6、步骤s104、对裁剪出的文字区域的裁剪图像按照文字方向对应进行旋转，获得水平方向的裁剪图像；

7、步骤s105、对旋转后的裁剪图像进行插值缩放和填充处理，使得裁剪图像的特征尺寸保持不变；

8、步骤s106、将裁剪图像输入基于局部卷积神经网络rcnn与自监督转换网络transformer的文字内容识别模型，输出识别结果；以及

9、步骤s107、基于识别结果，获取到不同标签位置最大得分，通过搜索解码的方式，求取对应的文字并输出。

10、根据本专利技术目的的第二方面，提出一种计算机系统，包括：

11、一个或多个处理器；以及

12、存储器，存储可被操作的指令；

13、其中，所述指令在通过一个或多个处理器执行时使得前述的一个或多个处理器执行操作，所述操作包括执行前述自然场景下的图像文字识别方法的过程。

14、根据本专利技术目的的第三方面，提出一种计算机可读存储介质，用于存储一个或多个程序，所述一个或多个程序包括能够被一个或者多个处理器执行的指令或者指令集；

15、其中，所述指令或者指令集在由一个或多个处理器执行时，执行前述自然场景下的图像文字识别方法的过程。

16、结合以上实施例的自然场景下的图像文字识别方法，与现有技术相比，其显著优点在于：

17、1、本专利技术提出的自然场景下的图像文字识别方法，可实现文字区域、文字方向以及文字内容融合识别，提高文字识别的鲁棒性，提高识别生僻字和旋转角度较大的文字的准确性和精度。

18、2、本专利技术提出的文字区域检测网络以及文字内容识别网络均使用了大规模数据集用作训练，训练数据涵盖的语料库充足，字体形式丰富，具有更强的泛化性；

19、3、本专利技术设计的文字区域检测网络使用优化后的ctpn网络，融合文字区域检测和角度监测，同时提取文字框的位置特征以及旋转角度特征，用于解决大旋转角度的文字检测不准的问题，实现对旋转角度较大的文字的准确检测，提高文字识别的精度；

20、4、本专利技术设计的文字内容识别模型采用rcnn+transformer的融合网络结构，相对与现有的长短期记忆网络lstm，本专利技术的文字解码识别效果更优，能够提高准确率，同时解决文本长度不一致的问题。

21、应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的专利技术主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的专利技术主题的一部分。

22、结合附图从下面的描述中可以更加全面地理解本专利技术教导的前述和其他方面、实施例和特征。本专利技术的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本专利技术教导的具体实施方式的实践中得知。

本文档来自技高网...

【技术保护点】

1.一种自然场景下的图像文字识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自然场景下的图像文字识别方法，其特征在于，所述步骤S101中，还包含对原始图像的预处理，包括：

3.根据权利要求2所述的自然场景下的图像文字识别方法，其特征在于，所述对缩放后的图像进行标准归一化处理，包括采用零-均值归一化方法或者基于线性函数的归一化方法进行标准归一化处理。

4.根据权利要求1所述的自然场景下的图像文字识别方法，其特征在于，所述基于连接预选框网络的文本检测模型为预训练的文本检测模型，所述文本检测模型包括：

5.根据权利要求1所述的自然场景下的图像文字识别方法，其特征在于，所述步骤S103中，对原始图像中的文字区域进行非极大值抑制处理，筛选出得分超过预设值的文字区域，获取其所在位置的图像区域并裁剪出图像，包括：

6.根据权利要求1所述的自然场景下的图像文字识别方法，其特征在于，所述步骤S104中，对裁剪出的文字区域的裁剪图像按照文字方向对应进行旋转，获得水平方向的裁剪图像，包括：

7.根据权利要求1所述的自

8.根据权利要求1-7中任意一项所述的自然场景下的图像文字识别方法，其特征在于，所述步骤S106中，所述基于局部卷积神经网络RCNN与自监督转换网络Transformer的文字内容识别模型包括图像特征编码阶段以及文字特征解码阶段：

9.一种计算机系统，其特征在于，包括：

10.一种计算机可读存储介质，用于存储一个或多个程序，其特征在于，所述一个或多个程序包括能够被一个或者多个处理器执行的指令或者指令集；

...

【技术特征摘要】

1.一种自然场景下的图像文字识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自然场景下的图像文字识别方法，其特征在于，所述步骤s101中，还包含对原始图像的预处理，包括：

5.根据权利要求1所述的自然场景下的图像文字识别方法，其特征在于，所述步骤s103中，对原始图像中的文字区域进行非极大值抑制处理，筛选出得分超过预设值的文字区域，获取其所在位置的图像区域并裁剪出图像，包括：

【专利技术属性】
技术研发人员：贾伟，葛俊海，胡亮，赵永杰，
申请(专利权)人：南京先维信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人