一种基于深度学习的手写气象档案资料的字符识别方法技术

技术编号：26651193 阅读：84 留言：0更新日期：2020-12-09 00:52

本发明专利技术公开一种基于深度学习的手写气象档案资料的字符识别方法，包括如下步骤：A、图像预处理与字符识别数据集制作；B、字符识别；C、检查识别效果。本发明专利技术将纸质气象档案扫描为数字图像格式，先做图像预处理，再使用CTPN算法定位字符位置，和人工书写的影像数据共同构建字符识别数据集。最后将数据集样本送入CRNN识别模型进行识别。本发明专利技术准备了高低质量两个数据集，分别训练了两个具有识别差异的CRNN模型，将相同的识别结果作为输出值，利用数据集间的差异剔除涂改字符。本发明专利技术方法在粘连字符识别问题上有明显的优势，且能准确的甄别出涂改字符。实验结果表明本发明专利技术可以显著减少人工工作量，提高工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的手写气象档案资料的字符识别方法
本专利技术涉及手写气象档案资料识别
具体地说是一种基于深度学习的手写气象档案资料的字符识别方法。
技术介绍
气象档案为气象监测与科学研究等各个领域提供着重要的数据支持，具有很高的保存与研究价值。现存许多的历史气象档案多为手写纸质档案，为了更妥善的保存与保护，利用科技手段数字化储存十分有必要。气象档案数字化的常规方法是人工比对数据并录入，最终以电子档案的形式进行保存。人工整理流程繁杂，录入精度较低且耗时太长，通常需要投入大批量的人力物力，效率也得不到保障。近些年来，人工智能技术取得长足进步，为工业生产带来了诸多便利，以人工智能代替人工是时代的潮流。采用深度学习的方法对要录入的内容进行自动识别，减少人工工作量，提升工作效率。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案，更有效的利用气象资料，将气象档案数字化非常有必要。字符识别是气象档案数字化的重要任务。字符识别任务可分为手写字识别和印刷字识别，手写字符识别又可分为联机识别与脱机识别。...

【技术保护点】
1.一种基于深度学习的手写气象档案资料的字符识别方法，其特征在于，包括如下步骤：/n(1)图像预处理与字符识别数据集制作：将纸质气象档案扫描为数字图像格式，先做图像预处理，再使用CTPN算法定位字符位置，和人工书写的影像数据共同构建字符识别数据集；/n(2)字符识别：将字符识别数据集送入CRNN识别模型进行识别；/n(3)检查识别结果。/n

【技术特征摘要】
1.一种基于深度学习的手写气象档案资料的字符识别方法，其特征在于，包括如下步骤：
(1)图像预处理与字符识别数据集制作：将纸质气象档案扫描为数字图像格式，先做图像预处理，再使用CTPN算法定位字符位置，和人工书写的影像数据共同构建字符识别数据集；
(2)字符识别：将字符识别数据集送入CRNN识别模型进行识别；
(3)检查识别结果。

2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法，其特征在于，在步骤(1)中，图像预处理包括：
(a)中值滤波：对图像做了中值滤波处理，平滑图像信息，为图像二值化做准备；
(b)OTSU二值化：采取OTSU算法自动选取二值化阈值，将降噪过的图片做自适应阈值二值化处理；
(c)霍夫直线检测：使用霍夫变换检测倾斜角度并校正图像，霍夫变换将图片信息由图像空间变换到霍夫空间，图像空间当中的相交直线转换为霍夫空间中的点，在霍夫空间形成峰值，峰值就是相交直线的个数；采用霍夫变换对二值化图片中的长直线进行提取，获得各个直线的倾斜角度；
(d)倾斜校正：对扫描图像进行倾斜矫正，取所有倾斜角的均值，用旋转函数将图像进行校正，以保证后面的步骤能够顺利进行；
(e)表格提取：对倾斜校正过的二值图做形态学开运算，先做腐蚀后做膨胀，其中腐蚀与膨胀的核分别为N*1与1*N，只保留竖线，剔除了横线；再做1*N的腐蚀和N*1的膨胀，只保留了横线，剔除了竖线；腐蚀操作会将文字非直线像素抹消，再将两次操作的结果叠合；
(f)按表格截取局部图像：调用OpenCV函数搜索图中轮廓，根据轮廓信息裁剪原始图像并保存。

3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法，其特征在于，在步骤(1)中，利用CTPN算法进行文本定位制作数据集：
先随机选取了50张扫描图片，用Xnview软件或其他截图软件将字符从扫描图片中截取并保存；然后将数据分成小批量送入模型，利用CTPN网络结构进行模型训练，每一批32张图片，共训练20轮次，得到文本定位后的结果；在CTPN定位模型训练完成后，又以定位模型对文本目标位置进行提取，自动裁剪保存。

4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法，其特征在于，在步骤(1)中，制作人工书写数据集：使用人工书写的方式按照档案数据的形式将数据誊写与纸面上，再将这些数据送入扫描仪成像，作为字符识别的数据集，裁剪保存；
邀请10人按照档案数据的形式将数据誊写于纸面上，再将这些数据送入扫描仪成像，裁剪保存；所有裁剪图片由人工比对图片字符信息进行命名，总共120178张；
在人工命名过程中，将裁剪图片中含有涂改字符的图片挑出，共5516张，命名为‘错’，即对应标签为‘错’，并不是对应修改后的信息；
挑出字迹不清难以区分，可能影响训练精度的图片，标签为字符信息，共7124张；
将所有挑出的图片单独存于一个文件夹，再从剩余字迹清晰无涂改的图片中随机挑选12000张图片，共24640张图片共同作为低质量数据集；
剩余图片制作高质量数据集，取出剩余图片的十分之一作为测试集；
低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按...

【专利技术属性】
技术研发人员：鞠晓慧，张强，战云健，陈东辉，王妍，兰平，
申请(专利权)人：国家气象信息中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人