文本图像识别方法、装置、设备和存储介质制造方法及图纸

技术编号:35796160 阅读:15 留言:0更新日期:2022-12-01 14:47
本申请涉及图像处理领域,公开了一种文本图像识别方法、装置、设备和存储介质,该方法包括:获取目标图像,并在目标图像中划分基准区域;计算基准区域内各字符的墨迹坐标;根据坐标和基准区域确定目标感兴趣区域;识别目标感兴趣区域中的字符串,并在识别出字符串为页码时确定目标图像为文本图像。本申请实施例通过对目标图像划分基准区域,并从基准区域中确定目标感兴趣区域,从而根据目标感兴趣区域中字符串的识别结果来实现文本图像的判断,在识别出该字符串为页码时确定目标图像为文本图像,从而提高了文本图像识别的准确度,提高后续对文本图像的分类管理效率。文本图像的分类管理效率。文本图像的分类管理效率。

【技术实现步骤摘要】
文本图像识别方法、装置、设备和存储介质


[0001]本申请涉及图像处理领域,尤其涉及一种文本图像识别方法、装置、设备和存储介质。

技术介绍

[0002]如银行领域等会形成大量打印文本类文件的业务场景中,业务过程中所产生的文本文件通常记录有客户及业务员的签名、公章等信息,且该类文件往往通过拍摄或扫描途径转换成数字图像存储于数据库中备查。但在实际应用过程中,这些文本图像常常和证件、人像等非文本图像混杂在一起,难以完全准确记录其类别,也就更难对数据进行分类分权限管理,导致文件管理效率低。
[0003]目前,并没有可以用来识别页码的非深度学习的一般编程方法,而一些基于深度学习的光学字符识别(OCR)方法有着较高的识别准确率,可以提取图像中的文字,但该方法不能精准判定有字符存在的图像即为文本图像。因此,如何实现文本图像的精准识别是个亟需解决的问题。

技术实现思路

[0004]有鉴于此,为了解决现有技术的问题,本申请提供了一种可应用于如金融科技等领域或其他领域的文本图像识别方法、装置、设备和存储介质。
[0005]第一方面,本专利技术提供一种文本图像识别方法,包括:获取目标图像,并在所述目标图像中划分基准区域;计算所述基准区域内各字符的墨迹坐标;根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
[0006]在可选的实施方式中,所述方法还包括:若识别出所述字符串不为页码,则确定所述目标图像为非文本图像
[0007]在可选的实施方式中,所述识别所述目标感兴趣区域中的字符串,包括:剔除所述字符串中的预定字符;判断剔除后的字符串是否符合预设条件;其中,所述预设条件为所述字符串为预定字符组合,且所述字符串中的纯数字子串的数量不大于预定字符数;其中,所述预定字符组合为纯数字字符或数字字符和预定分隔符组合;若所述字符串符合预设条件,则确定所述字符串为页码;若所述字符串不符合预设条件,则确定所述字符串不为页码。
[0008]在可选的实施方式中,所述在所述目标图像中划分基准区域,包括:将所述目标图像转换为灰度图像,并所述灰度图像中的像素值进行预处理,所述预处理为将大于预定阈值的像素值设置为预定像素值;
基于所述目标图像对应的高度值和宽度值,按照预设的对角坐标计算公式计算得到第一对角坐标;基于所述第一对角坐标,确定所述目标图像中的基准区域。
[0009]在可选的实施方式中,所述计算所述基准区域内各字符的墨迹坐标,包括:对所述基准区域内的图像进行预处理,得到像素矩阵,所述预处理包括黑白反转、形态学膨胀处理和二值化处理;分别对所述像素矩阵中的每行值进行求和处理,得到投影向量,并对所述投影向量进行二值化处理;将二值化处理后的所述投影向量与零元素组合形成两个子投影向量;计算两个所述子投影向量之间的差异向量;基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标。
[0010]在可选的实施方式中,所述基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标,包括:若所述差异向量的值为1,则所述差异向量对应的像素位置为所述基准区域内各个字符的顶端墨迹坐标;若所述差异向量的值为

1,则所述差异向量对应的像素位置为所述基准区域内各个字符的尾端墨迹坐标。
[0011]在可选的实施方式中,在所述根据所述墨迹坐标和所述基准区域确定目标感兴趣区域之前,还包括:计算各所述字符对应的顶端墨迹坐标和尾端墨迹坐标的差值,得到字符大小;从各所述字符中,剔除所述字符大小小于预定的字符大小阈值的字符;剔除后的各所述字符用于基于对应的墨迹坐标确定目标感兴趣区域。
[0012]在可选的实施方式中,所述根据所述墨迹坐标和所述基准区域确定目标感兴趣区域,包括:获取所述基准区域在长度方向上的图像最底端的字符对应的顶端墨迹坐标和尾端墨迹坐标;根据预定的横坐标计算公式,计算得到两个横坐标;将两个所述横坐标分别与所述顶端墨迹坐标和所述尾端墨迹坐标组合,得到第二对角坐标;基于所述第二对角坐标,确定目标感兴趣区域。
[0013]在可选的实施方式中,所述方法还包括:若未识别到所述目标感兴趣区域中的字符串或所识别到的字符串中字符对应的最高置信度小于预设置信度阈值,则确定所述目标图像为非文本图像。
[0014]第二方面,本专利技术提供一种文本图像识别装置,包括:划分模块,用于获取目标图像,并在所述目标图像中划分基准区域;计算模块,用于计算所述基准区域内各字符的墨迹坐标;确定模块,用于根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;识别模块,用于识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。
[0015]第三方面,本专利技术提供一种计算机设备,所述计算机设备包括存储器和至少一个处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施前述的文本图像识别方法。
[0016]第四方面,本专利技术提供一种计算机存储介质,其存储有计算机程序,所述计算机程序被执行时,实施根据前述的文本图像识别方法。
[0017]本申请实施例具有如下有益效果:本申请实施例提供了一种文本图像识别方法,包括获取目标图像,并在目标图像中划分基准区域;计算基准区域内各字符的墨迹坐标;根据坐标和基准区域确定目标感兴趣区域;识别目标感兴趣区域中的字符串,基于字符串,确定目标图像是否为文本图像。本申请实施例通过对目标图像划分基准区域,并从基准区域中确定目标感兴趣区域,从而根据目标感兴趣区域中字符串的识别结果来实现文本图像的判断,在识别出该字符串为页码时确定目标图像为文本图像,实现对文本图像的精准识别,提高后续对文本图像的分类管理效率,节约人力管理成本。
附图说明
[0018]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
[0019]图1示出了本申请实施例中文本图像识别方法的第一个实施方式示意图;图2示出了本申请实施例中文本图像识别方法的第二个实施方式示意图;图3示出了本申请实施例中文本图像识别方法的第三个实施方式示意图;图4示出了本申请实施例中投影向量的获取过程示意图;图5示出了本申请实施例中文本图像识别方法的第四个实施方式示意图;图6示出了本申请实施例中文本图像识别装置的结构示意图。
具体实施方式
[0020]下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
[0021]通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像识别方法,其特征在于,包括:获取目标图像,并在所述目标图像中划分基准区域;计算所述基准区域内各字符的墨迹坐标;根据所述墨迹坐标和所述基准区域确定目标感兴趣区域;识别所述目标感兴趣区域中的字符串,并在识别出所述字符串为页码时确定所述目标图像为文本图像。2.根据权利要求1所述的文本图像识别方法,其特征在于,所述方法还包括:若识别出所述字符串不为页码,则确定所述目标图像为非文本图像。3.根据权利要求1所述的文本图像识别方法,其特征在于,所述识别所述目标感兴趣区域中的字符串,包括:剔除所述字符串中的预定字符;判断剔除后的字符串是否符合预设条件;其中,所述预设条件为所述字符串为预定字符组合,且所述字符串中的纯数字子串的数量不大于预定字符数;其中,所述预定字符组合为纯数字字符或数字字符和预定分隔符组合;若所述字符串符合预设条件,则确定所述字符串为页码;若所述字符串不符合预设条件,则确定所述字符串不为页码。4.根据权利要求1所述的文本图像识别方法,其特征在于,所述在所述目标图像中划分基准区域,包括:将所述目标图像转换为灰度图像,并所述灰度图像中的像素值进行预处理,所述预处理为将大于预定阈值的像素值设置为预定像素值;基于所述目标图像对应的高度值和宽度值,按照预设的对角坐标计算公式计算得到第一对角坐标;基于所述第一对角坐标,确定所述目标图像中的基准区域。5.根据权利要求1所述的文本图像识别方法,其特征在于,所述计算所述基准区域内各字符的墨迹坐标,包括:对所述基准区域内的图像进行预处理,得到像素矩阵,所述预处理包括黑白反转、形态学膨胀处理和二值化处理;分别对所述像素矩阵中的每行值进行求和处理,得到投影向量,并对所述投影向量进行二值化处理;将二值化处理后的所述投影向量与零元素组合形成两个子投影向量;计算两个所述子投影向量之间的差异向量;基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标。6.根据权利要求5所述的文本图像识别方法,其特征在于,所述基于所述差异向量,确定所述基准区域内各个字符的墨迹坐标,包括:若所述差异向量的值为1,则所述差异向量对应的像...

【专利技术属性】
技术研发人员:陈景宇许佳唐燕谭斌瑛李嘉俊周宏浩姚璐雷凤毛钟力立陈骥晗杨康
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1