基于深度学习的文字识别方法及系统技术方案

技术编号:32344175 阅读:67 留言:0更新日期:2022-02-16 18:59
本发明专利技术涉及一种基于深度学习的文字识别方法及系统,该方法包括:获取业务办公场景中待检测文书的图像数据集;从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据;利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据;将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域;通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字,该方法对经数据清洗后的模糊图像数据采取生成式对抗网络模型去模糊处理,实现数据增强,解决图像中多个文字方向的倾斜问题,提高了文字识别率。提高了文字识别率。提高了文字识别率。

【技术实现步骤摘要】
基于深度学习的文字识别方法及系统


[0001]本专利技术属于文字识别
,尤其涉及一种基于深度学习的文字识别方法及系统。

技术介绍

[0002]目前文字识别技术(OCR,Optical Character Recognition)落地的应用很多,例如:通用文字识别、票据文字识别、卡证文字识别、汽车场景文字识别等等。但针对军事领域的业务办公场景文书,如通知、公告、命令、决议、请示、批复等,直接应用现有的文字识别技术存在识别性能较差的问题。

技术实现思路

[0003]本专利技术意在提供一种基于深度学习的文字识别方法及系统,以解决针对特殊领域的办公文书直接应用现有的文字识别技术存在识别性能较差的问题,本专利技术要解决的技术问题通过以下技术方案来实现:一方面,本专利技术提供了一种基于深度学习的文字识别方法,包括:获取业务办公场景中待检测文书的图像数据集;从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
[0004]优选地,所述生成式对抗网络模型的训练过程具体包括:根据内容损失、对抗损失确定损失函数,并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器;将不同尺寸的模糊图像A”输入所述生成器得到去模糊后的清晰图像A

;将所述去模糊后的清晰图像A

和真实的清晰图像A输入所述判别器得到所述去模糊后的清晰图像A

和真实的清晰图像A的相似得分;如果所述去模糊后的清晰图像A

和真实的清晰图像A的相似得分满足预设相似阈值,则停止所述生成式对抗网络模型的训练。
[0005]优选地,所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括:利用改进的VGG模型对所述待检测清晰图像数据和所述第二图像数据进行文字方向的倾斜角度矫正处理。
[0006]优选地,所述改进的VGG模型的构建过程具体包括:冻结VGG模型中除最后一层之外的所有卷积层和全连接层;通过预先获取的具有不同文字方向的倾斜角度图像对所述VGG模型的最后一层进行训练,并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。
[0007]优选地,所述数据清洗规则包括缺失值清洗、格式内容清洗、逻辑错误清洗以及非需求数据清洗。
[0008]优选地,所述从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据的步骤包括:如果所述待检测文书的图像数据集中图像数据的边缘满足预设清晰度判定条件,则确定为待检测清晰图像数据,否则,确定为待检测模糊图像数据。
[0009]优选地,所述通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字的步骤之后还包括:利用自然语言处理算法对所述目标文字进行处理得到多个文书基本要素信息;整合所述多个文书基本要素信息得到文字识别结果。
[0010]另一方面,本专利技术还提供了一种基于深度学习的文字识别系统,包括:图像获取模块,被配置为获取业务办公场景中待检测文书的图像数据集;数据筛选模块,被配置为从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;数据清洗模块,被配置为基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;图像增强模块,被配置为利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;文本检测模块,被配置为将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;以及,文字识别模块,被配置为通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
[0011]再一方面,本专利技术还提供了一种电子设备,包括:处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述所述的基于深度学习的文字识别方法。
[0012]又一方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的基于深度学习的文字识别方法。
[0013]与现有技术相比,本专利技术的基于深度学习的文字识别方法在图像数据处理阶段对经数据清洗后的模糊图像数据采取生成式对抗网络模型进行去模糊处理,该生成式对抗网络模型通过学习数据的分布,可以随机生成与训练数据的真实分布近似的图像数据,经图像去模糊的处理来达到数据增强的目的;通过文本检测模型和文字识别模型对经去模糊处理的图像数据与真实清晰的图像数据进行处理得到目标文字,提高了特殊领域的业务办公场景文书的识别性能。
[0014]另外,在图像数据处理阶段解决了在扫描文档时经常存在图像中多个文字方向的倾斜问题,进一步提高了文字识别率。
附图说明
[0015]图1为本专利技术的基于深度学习的文字识别方法的一些实施例的流程示意图;图2为本专利技术的基于深度学习的文字识别方法中生成式对抗网络模型的训练流程示意图;图3为本专利技术的基于深度学习的文字识别方法中生成式对抗网络模型的去模糊处理过程图;图4本专利技术的基于深度学习的文字识别方法的另一些实施例的流程示意图;图5为本专利技术实施例的改进后的VGG16模型的网络示意图;图6为本专利技术的基于深度学习的文字识别方法的再一些实施例的流程示意图;图7为本专利技术实施例的通知公文示意图;图8为本专利技术基于深度学习的文字识别系统的一些实施例的结构框图。
具体实施方式
[0016]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。
[0017]一方面,参见图1所示,本专利技术实施例提供了一种基于深度学习的文字识别方法,包括:步骤100:获取业务办公场景中待检测文书的图像数据集;本步骤中在业务办公场景下使用获取图像的工具拍摄获得图像,例如:通过人工采集获取图像,其中模糊图像在拍摄时长时间曝光或者被拍摄物体移动太快过程中获取。
[0018]步骤200:从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;本步骤中通过人工或者算法依据图像清晰度进行筛选。
[0019]步骤300:基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据;本步骤中数据清洗主要是针对模糊图像进行处理,去除无法识别的模糊图像。
[0020]步骤400:利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据;步骤500:将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域;本步骤中预先训练的文本检测模型可以为CTPN模型,当然还可以为其他模型,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文字识别方法,其特征在于,包括:获取业务办公场景中待检测文书的图像数据集;从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据;基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据;利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据;将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域;通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。2.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述生成式对抗网络模型的训练过程具体包括:根据内容损失、对抗损失确定损失函数,并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器;将不同尺寸的模糊图像A”输入所述生成器得到去模糊后的清晰图像A

;将所述去模糊后的清晰图像A

和真实的清晰图像A输入所述判别器得到所述去模糊后的清晰图像A

和真实的清晰图像A的相似得分;如果所述去模糊后的清晰图像A

和真实的清晰图像A的相似得分满足预设相似阈值,则停止所述生成式对抗网络模型的训练。3.根据权利要求1所述的基于深度学习的文字识别方法,其特征在于,所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括:利用改进的VGG模型对所述待检测清晰图像数据和所述第二图像数据进行文字方向的倾斜角度矫正处理。4.根据权利要求3所述的基于深度学习的文字识别方法,其特征在于,所述改进的VGG模型的构建过程具体包括:冻结VGG模型中除最后一层之外的所有卷积层和全连接层;通过预先获取的具有不同文字方向的倾斜角度图像对所述VGG模型的最后一层进行训练,并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。5.根据...

【专利技术属性】
技术研发人员:路红英王滨黄茗李波
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1