基于深度学习的手写及打印文本检测方法和装置制造方法及图纸

技术编号:38025545 阅读:12 留言:0更新日期:2023-06-30 10:52
本申请公开了一种基于深度学习的手写及打印文本检测方法和装置,属于图像处理技术领域。所述基于深度学习的手写及打印文本检测方法包括:对初始文本图像进行多特征提取,获取融合特征图;基于融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图;基于打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图中的至少两个,获取目标检测区域,目标检测区域包括目标文本以及目标文本对应的文本框。本申请的基于深度学习的手写及打印文本检测方法,能够在实际应用中融合不同类型的特征,并且能够有效区分打印文本、手写文本以及背景区域,从而提高了最终文本识别的精度以及文本检测效果。测效果。测效果。

【技术实现步骤摘要】
基于深度学习的手写及打印文本检测方法和装置


[0001]本申请属于图像处理
,尤其涉及一种基于深度学习的手写及打印文本检测方法和装置。

技术介绍

[0002]随着人工智能的发展,深度学习在图像识别和光学字符识别等
中得到了越来越广泛的应用,比如车牌识别、发票识别以及扫描文档信息提取等,文本检测作为光学字符识别中一个重要分支,直接影响光学字符识别最终的识别效果。文字具有多方向、不规则形状、极端长宽比、字体、颜色和背景多样等特点,常规的文本检测技术对长文本和行紧密型文本检测效果不佳,且无法区分手写及打印文本信息,识别范围有限,进而影响后续文字识别的精度。

技术实现思路

[0003]本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种基于深度学习的手写及打印文本检测方法和装置,能够在实际应用中融合不同类型的特征,从而完整地描述文本实例,并且能够有效区分打印文本、手写文本以及背景区域,从而提高了最终文本识别的精度以及文本检测效果。
[0004]第一方面,本申请提供了一种基于深度学习的手写及打印文本检测方法,该方法包括:
[0005]对初始文本图像进行多特征提取,获取融合特征图;
[0006]基于所述融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图;
[0007]基于所述打印文本区域概率图、所述手写文本区域概率图和所述文本区域自适应阈值概率图中的至少两个,获取目标检测区域,所述目标检测区域包括目标文本以及所述目标文本对应的文本框。
[0008]根据本申请实施例提供的基于深度学习的手写及打印文本检测方法,通过对初始文本图像进行多特征提取,获取融合特征图,然后基于融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图,再基于打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图中的至少两个,获取目标检测区域,能够在实际应用中融合不同类型的特征,从而完整地描述文本实例,并且能够有效区分打印文本、手写文本以及背景区域,从而提高了最终文本识别的精度以及文本检测效果。
[0009]本申请一个实施例的基于深度学习的手写及打印文本检测方法,所述基于所述打印文本区域概率图、所述手写文本区域概率图和所述文本区域自适应阈值概率图中的至少两个,获取目标检测区域,包括:
[0010]基于所述打印文本区域概率图和所述文本区域自适应阈值概率图,获取打印文本区域二值图;
[0011]基于所述手写文本区域概率图和所述文本区域自适应阈值概率图,获取手写文本区域二值图;
[0012]分别对所述打印文本区域二值图和所述手写文本区域二值图进行连通域计算、外接矩形计算以及扩张处理中的至少一种,获取所述目标检测区域。
[0013]本申请一个实施例的基于深度学习的手写及打印文本检测方法,所述对初始文本图像进行多特征提取,获取融合特征图,包括:
[0014]对所述初始文本图像进行多特征提取,获取多个类型的特征;
[0015]基于所述多个类型的特征以及所述特征对应的注意权重,生成所述融合特征图。
[0016]本申请一个实施例的基于深度学习的手写及打印文本检测方法,所述对初始文本图像进行多特征提取,获取融合特征图,包括:
[0017]将所述初始文本图像输入至特征提取模型,获得所述初始文本图像对应的多个类型的特征;
[0018]对所述多个类型的特征进行卷积操作,获得中间特征序列;
[0019]将所述中间特征序列输入至空间注意力机制模块,获得所述空间注意力机制模块输出的各所述中间特征序列对应的注意权重序列,其中,所述注意权重序列包括多个注意权重,所述多个注意权重与所述多个类型的特征一一对应;
[0020]基于所述多个注意权重,对所述多个类型的特征进行加权计算,获取所述融合特征图。
[0021]本申请一个实施例的基于深度学习的手写及打印文本检测方法,所述基于所述融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图,包括:
[0022]将所述融合特征图输入至文本检测模型的第一通道,获取所述第一通道输出的所述打印文本区域概率图;
[0023]其中,所述第一通道为以样本特征图为样本,以与所述样本特征图对应的样本打印文本区域概率图为样本标签训练得到;
[0024]将所述融合特征图输入至文本检测模型的第二通道,获取所述第二通道输出的所述手写文本区域概率图;
[0025]其中,所述第二通道为以样本特征图为样本,以与所述样本特征图对应的样本手写文本区域概率图为样本标签训练得到;
[0026]将所述融合特征图输入至文本检测模型的第三通道,获取所述第三通道输出的所述文本区域自适应阈值概率图;
[0027]其中,所述第三通道为以样本特征图为样本,以与所述样本特征图对应的样本文本区域自适应阈值概率图为样本标签训练得到。
[0028]本申请一个实施例的基于深度学习的手写及打印文本检测方法,
[0029]所述样本打印文本区域概率图通过如下方式确定:
[0030]对所述样本特征图进行打印文本区域特征提取,获取第一打印文本区域;
[0031]对所述第一打印文本区域进行缩小处理,获取所述样本打印文本区域概率图;
[0032]所述样本手写文本区域概率图通过如下方式确定:
[0033]对所述样本特征图进行手写文本区域特征提取,获取第一手写文本区域;
[0034]对所述第一手写文本区域进行缩小处理,获取所述样本手写文本区域概率图。
[0035]第二方面,本申请提供了一种基于深度学习的手写及打印文本检测装置,该装置包括:
[0036]第一处理模块,用于对初始文本图像进行多特征提取,获取融合特征图;
[0037]第二处理模块,用于基于所述融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图;
[0038]第三处理模块,用于基于所述打印文本区域概率图、所述手写文本区域概率图和所述文本区域自适应阈值概率图中的至少两个,获取目标检测区域,所述目标检测区域包括目标文本以及所述目标文本对应的文本框。
[0039]根据本申请实施例提供的基于深度学习的手写及打印文本检测装置,通过对初始文本图像进行多特征提取,获取融合特征图,然后基于融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图,再基于打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图中的至少两个,获取目标检测区域,能够在实际应用中融合不同类型的特征,从而完整地描述文本实例,并且能够有效区分打印文本、手写文本以及背景区域,从而提高了最终文本识别的精度以及文本检测效果。
[0040]第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的手写及打印文本检测方法,其特征在于,包括:对初始文本图像进行多特征提取,获取融合特征图;基于所述融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图;基于所述打印文本区域概率图、所述手写文本区域概率图和所述文本区域自适应阈值概率图中的至少两个,获取目标检测区域,所述目标检测区域包括目标文本以及所述目标文本对应的文本框。2.根据权利要求1所述的基于深度学习的手写及打印文本检测方法,其特征在于,所述基于所述打印文本区域概率图、所述手写文本区域概率图和所述文本区域自适应阈值概率图中的至少两个,获取目标检测区域,包括:基于所述打印文本区域概率图和所述文本区域自适应阈值概率图,获取打印文本区域二值图;基于所述手写文本区域概率图和所述文本区域自适应阈值概率图,获取手写文本区域二值图;分别对所述打印文本区域二值图和所述手写文本区域二值图进行连通域计算、外接矩形计算以及扩张处理中的至少一种,获取所述目标检测区域。3.根据权利要求1所述的基于深度学习的手写及打印文本检测方法,其特征在于,所述对初始文本图像进行多特征提取,获取融合特征图,包括:对所述初始文本图像进行多特征提取,获取多个类型的特征;基于所述多个类型的特征以及所述特征对应的注意权重,生成所述融合特征图。4.根据权利要求1

3任一项所述的基于深度学习的手写及打印文本检测方法,其特征在于,所述对初始文本图像进行多特征提取,获取融合特征图,包括:将所述初始文本图像输入至特征提取模型,获得所述初始文本图像对应的多个类型的特征;对所述多个类型的特征进行卷积操作,获得中间特征序列;将所述中间特征序列输入至空间注意力机制模块,获得所述空间注意力机制模块输出的各所述中间特征序列对应的注意权重序列,其中,所述注意权重序列包括多个注意权重,所述多个注意权重与所述多个类型的特征一一对应;基于所述多个注意权重,对所述多个类型的特征进行加权计算,获取所述融合特征图。5.根据权利要求1

3任一项所述的基于深度学习的手写及打印文本检测方法,其特征在于,所述基于所述融合特征图,获取打印文本区域概率图、手写文本区域概率图和文本区域自适应阈值概率图,包括:将所述融合特征图输入至文本检测模型的第一通道,获取所述第一通道输出的所述打印文本区域...

【专利技术属性】
技术研发人员:刘凯航黄宇恒张华俊徐天适金晓峰
申请(专利权)人:广州广电运通金融电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1