基于深度学习的文字识别方法及系统技术方案

技术编号：32344175 阅读：67 留言：0更新日期：2022-02-16 18:59

本发明专利技术涉及一种基于深度学习的文字识别方法及系统，该方法包括：获取业务办公场景中待检测文书的图像数据集；从待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；基于数据清洗规则对待检测模糊图像数据进行处理得到第一图像数据；利用预先训练的生成式对抗网络模型对第一图像数据进行去模糊处理得到第二图像数据；将待检测清晰图像数据和第二图像数据输入至预先训练的文本检测模型得到目标文字区域；通过预先训练的文字识别模型对目标文字区域进行文字识别得到目标文字，该方法对经数据清洗后的模糊图像数据采取生成式对抗网络模型去模糊处理，实现数据增强，解决图像中多个文字方向的倾斜问题，提高了文字识别率。提高了文字识别率。提高了文字识别率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的文字识别方法及系统

[0001]本专利技术属于文字识别
，尤其涉及一种基于深度学习的文字识别方法及系统。

技术介绍

[0002]目前文字识别技术（OCR，Optical Character Recognition）落地的应用很多，例如：通用文字识别、票据文字识别、卡证文字识别、汽车场景文字识别等等。但针对军事领域的业务办公场景文书，如通知、公告、命令、决议、请示、批复等，直接应用现有的文字识别技术存在识别性能较差的问题。

技术实现思路

[0003]本专利技术意在提供一种基于深度学习的文字识别方法及系统，以解决针对特殊领域的办公文书直接应用现有的文字识别技术存在识别性能较差的问题，本专利技术要解决的技术问题通过以下技术方案来实现：一方面，本专利技术提供了一种基于深度学习的文字识别方法，包括：获取业务办公场景中待检测文书的图像数据集；从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据；利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据；将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域；通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。
[0004]优选地，所述生成式对抗网络模型的训练过程具体包括：根据内容损失、对抗损失确定损失函数，并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器；将不同尺...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文字识别方法，其特征在于，包括：获取业务办公场景中待检测文书的图像数据集；从所述待检测文书的图像数据集中筛选得到待检测清晰图像数据和待检测模糊图像数据；基于数据清洗规则对所述待检测模糊图像数据进行处理得到第一图像数据；利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据；将所述待检测清晰图像数据和所述第二图像数据输入至预先训练的文本检测模型得到目标文字区域；通过预先训练的文字识别模型对所述目标文字区域进行文字识别得到目标文字。2.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述生成式对抗网络模型的训练过程具体包括：根据内容损失、对抗损失确定损失函数，并基于所述损失函数构建所述生成式对抗网络模型的生成器和判别器；将不同尺寸的模糊图像A”输入所述生成器得到去模糊后的清晰图像A
’
；将所述去模糊后的清晰图像A
’
和真实的清晰图像A输入所述判别器得到所述去模糊后的清晰图像A
’
和真实的清晰图像A的相似得分；如果所述去模糊后的清晰图像A
’
和真实的清晰图像A的相似得分满足预设相似阈值，则停止所述生成式对抗网络模型的训练。3.根据权利要求1所述的基于深度学习的文字识别方法，其特征在于，所述利用预先训练的生成式对抗网络模型对所述第一图像数据进行去模糊处理得到第二图像数据的步骤之后还包括：利用改进的VGG模型对所述待检测清晰图像数据和所述第二图像数据进行文字方向的倾斜角度矫正处理。4.根据权利要求3所述的基于深度学习的文字识别方法，其特征在于，所述改进的VGG模型的构建过程具体包括：冻结VGG模型中除最后一层之外的所有卷积层和全连接层；通过预先获取的具有不同文字方向的倾斜角度图像对所述VGG模型的最后一层进行训练，并通过softmax分类器得到包含多个图像文字方向分类的目标分类结果。5.根据...

【专利技术属性】
技术研发人员：路红英，王滨，黄茗，李波，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人