文本图像识别方法、装置、设备和存储介质制造方法及图纸

技术编号：35796160 阅读：15 留言：0更新日期：2022-12-01 14:47

本申请涉及图像处理领域，公开了一种文本图像识别方法、装置、设备和存储介质，该方法包括：获取目标图像，并在目标图像中划分基准区域；计算基准区域内各字符的墨迹坐标；根据坐标和基准区域确定目标感兴趣区域；识别目标感兴趣区域中的字符串，并在识别出字符串为页码时确定目标图像为文本图像。本申请实施例通过对目标图像划分基准区域，并从基准区域中确定目标感兴趣区域，从而根据目标感兴趣区域中字符串的识别结果来实现文本图像的判断，在识别出该字符串为页码时确定目标图像为文本图像，从而提高了文本图像识别的准确度，提高后续对文本图像的分类管理效率。文本图像的分类管理效率。文本图像的分类管理效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本图像识别方法、装置、设备和存储介质

[0001]本申请涉及图像处理领域，尤其涉及一种文本图像识别方法、装置、设备和存储介质。

技术介绍

[0002]如银行领域等会形成大量打印文本类文件的业务场景中，业务过程中所产生的文本文件通常记录有客户及业务员的签名、公章等信息，且该类文件往往通过拍摄或扫描途径转换成数字图像存储于数据库中备查。但在实际应用过程中，这些文本图像常常和证件、人像等非文本图像混杂在一起，难以完全准确记录其类别，也就更难对数据进行分类分权限管理，导致文件管理效率低。
[0003]目前，并没有可以用来识别页码的非深度学习的一般编程方法，而一些基于深度学习的光学字符识别（OCR）方法有着较高的识别准确率，可以提取图像中的文字，但该方法不能精准判定有字符存在的图像即为文本图像。因此，如何实现文本图像的精准识别是个亟需解决的问题。

技术实现思路

[0004]有鉴于此，为了解决现有技术的问题，本申请提供了一种可应用于如金融科技等领域或其他领域的文本图像识别方法、装置、设备和存储介质。
[0005]第一方面，本专利技术提供一种文本图像识别方法，包括：获取目标图像，并在所述目标图像中划分基准区域；计算所述基准区域内各字符的墨迹坐标；根据所述墨迹坐标和所述基准区域确定目标感兴趣区域；识别所述目标感兴趣区域中的字符串，并在识别出所述字符串为页码时确定所述目标图像为文本图像。
[0006]在可选的实施方式中，所述方法还包括：若识别出所述字符串不为页码，则确定所述目标图像为非文本图像...

【技术保护点】

【技术特征摘要】
1.一种文本图像识别方法，其特征在于，包括：获取目标图像，并在所述目标图像中划分基准区域；计算所述基准区域内各字符的墨迹坐标；根据所述墨迹坐标和所述基准区域确定目标感兴趣区域；识别所述目标感兴趣区域中的字符串，并在识别出所述字符串为页码时确定所述目标图像为文本图像。2.根据权利要求1所述的文本图像识别方法，其特征在于，所述方法还包括：若识别出所述字符串不为页码，则确定所述目标图像为非文本图像。3.根据权利要求1所述的文本图像识别方法，其特征在于，所述识别所述目标感兴趣区域中的字符串，包括：剔除所述字符串中的预定字符；判断剔除后的字符串是否符合预设条件；其中，所述预设条件为所述字符串为预定字符组合，且所述字符串中的纯数字子串的数量不大于预定字符数；其中，所述预定字符组合为纯数字字符或数字字符和预定分隔符组合；若所述字符串符合预设条件，则确定所述字符串为页码；若所述字符串不符合预设条件，则确定所述字符串不为页码。4.根据权利要求1所述的文本图像识别方法，其特征在于，所述在所述目标图像中划分基准区域，包括：将所述目标图像转换为灰度图像，并所述灰度图像中的像素值进行预处理，所述预处理为将大于预定阈值的像素值设置为预定像素值；基于所述目标图像对应的高度值和宽度值，按照预设的对角坐标计算公式计算得到第一对角坐标；基于所述第一对角坐标，确定所述目标图像中的基准区域。5.根据权利要求1所述的文本图像识别方法，其特征在于，所述计算所述基准区域内各字符的墨迹坐标，包括：对所述基准区域内的图像进行预处理，得到像素矩阵，所述预处理包括黑白反转、形态学膨胀处理和二值化处理；分别对所述像素矩阵中的每行值进行求和处理，得到投影向量，并对所述投影向量进行二值化处理；将二值化处理后的所述投影向量与零元素组合形成两个子投影向量；计算两个所述子投影向量之间的差异向量；基于所述差异向量，确定所述基准区域内各个字符的墨迹坐标。6.根据权利要求5所述的文本图像识别方法，其特征在于，所述基于所述差异向量，确定所述基准区域内各个字符的墨迹坐标，包括：若所述差异向量的值为1，则所述差异向量对应的像...

【专利技术属性】
技术研发人员：陈景宇，许佳，唐燕，谭斌瑛，李嘉俊，周宏浩，姚璐，雷凤毛，钟力立，陈骥晗，杨康，
申请(专利权)人：平安银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人