一种基于深度学习的手写气象档案资料的字符识别方法技术

技术编号:26651193 阅读:71 留言:0更新日期:2020-12-09 00:52
本发明专利技术公开一种基于深度学习的手写气象档案资料的字符识别方法,包括如下步骤:A、图像预处理与字符识别数据集制作;B、字符识别;C、检查识别效果。本发明专利技术将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集。最后将数据集样本送入CRNN识别模型进行识别。本发明专利技术准备了高低质量两个数据集,分别训练了两个具有识别差异的CRNN模型,将相同的识别结果作为输出值,利用数据集间的差异剔除涂改字符。本发明专利技术方法在粘连字符识别问题上有明显的优势,且能准确的甄别出涂改字符。实验结果表明本发明专利技术可以显著减少人工工作量,提高工作效率。

【技术实现步骤摘要】
一种基于深度学习的手写气象档案资料的字符识别方法
本专利技术涉及手写气象档案资料识别
具体地说是一种基于深度学习的手写气象档案资料的字符识别方法。
技术介绍
气象档案为气象监测与科学研究等各个领域提供着重要的数据支持,具有很高的保存与研究价值。现存许多的历史气象档案多为手写纸质档案,为了更妥善的保存与保护,利用科技手段数字化储存十分有必要。气象档案数字化的常规方法是人工比对数据并录入,最终以电子档案的形式进行保存。人工整理流程繁杂,录入精度较低且耗时太长,通常需要投入大批量的人力物力,效率也得不到保障。近些年来,人工智能技术取得长足进步,为工业生产带来了诸多便利,以人工智能代替人工是时代的潮流。采用深度学习的方法对要录入的内容进行自动识别,减少人工工作量,提升工作效率。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案,更有效的利用气象资料,将气象档案数字化非常有必要。字符识别是气象档案数字化的重要任务。字符识别任务可分为手写字识别和印刷字识别,手写字符识别又可分为联机识别与脱机识别。印刷体字符形状规则,结构清晰,便于识别。手写字符受每个人的用笔方式,书写习惯,文化背景等因素的影响,书写的字符差异较大,较难识别。脱机识别是指先将纸质文字信息通过扫描仪等扫描仪器转换为图片信息,再进行快速识别的过程,大多用于工整清晰的印刷体字符识别。联机识别是指利用触压电子屏,电子手写板等仪器手动书写,仪器根据书写的笔画与顺序进行识别,现在广泛应用于移动设备输入法程序的手写输入识别,识别精度较高。纸质气象档案数字化属于脱机识别,但手写字符的复杂性加大了识别的难度。近年来,人工智能发展迅猛,深度学习技术在各个领域都有着十分广泛的应用,包括数字图像处理,语音识别,数据分析等。以人工智能代替人工是大势所趋。在图像识别领域,深度神经网络以图像各通道像素值为输入数据,通过隐含层的层层计算,得到预测结果,通过大量的图片数据反复训练,不断修改隐含层的参数值,减少预测值与真实标签数据之间的差异,使预测值逼近真实值,不断提高预测精度。手写字识别是计算机图像处理的重要组成部分,深度学习对此有着广泛的研究。
技术实现思路
为此,本专利技术所要解决的技术问题在于提供一种基于深度学习的手写气象档案资料的字符识别方法,该方法针对手写字体的问题,在粘连字符识别问题上有明显的优势,且能准确的甄别出涂改字符,能够显著减少工作量,提高工作效率。为解决上述技术问题,本专利技术提供如下技术方案:一种基于深度学习的手写气象档案资料的字符识别方法,包括如下步骤:(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;(3)检查识别结果。上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(1)中,图像预处理包括:(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(1)中,利用CTPN算法进行文本定位制作数据集:先随机选取了50张扫描图片,用Xnview软件或其他截图软件将字符从扫描图片中截取并保存;然后将数据分成小批量送入模型,利用CTPN网络结构进行模型训练,每一批32张图片,共训练20轮次,得到文本定位后的结果;在CTPN定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(1)中,制作人工书写数据集:使用人工书写的方式按照档案数据的形式将数据誊写与纸面上,再将这些数据送入扫描仪成像,作为字符识别的数据集,裁剪保存;邀请10人按照档案数据的形式将数据誊写于纸面上,再将这些数据送入扫描仪成像,裁剪保存;所有裁剪图片由人工比对图片字符信息进行命名,总共120178张;在人工命名过程中,将裁剪图片中含有涂改字符的图片挑出,共5516张,命名为‘错’,即对应标签为‘错’,并不是对应修改后的信息;挑出字迹不清难以区分,可能影响训练精度的图片,标签为字符信息,共7124张;将所有挑出的图片单独存于一个文件夹,再从剩余字迹清晰无涂改的图片中随机挑选12000张图片,共24640张图片共同作为低质量数据集;剩余图片制作高质量数据集,取出剩余图片的十分之一作为测试集;低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按行存储于单独的txt文件中,作为两个数据集的标签文件。上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2)中,包括:(2-1)特征序列提取:采用VGG网络作为卷积提取网络提取图像特征,并对输出张量的形状做变换,以作为特征序列输入RNN;(2-2)在VGG网络之后,构造BLSTM双向循环网络来对输入序列逐一预测;(2-3)转录结构位于CRNN的顶部,用于将循环结构的预测序列转换成结果序列,是最终的输出结果;整个网络用统一的损失函数进行训练及优化。上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2-1)中,特征序列提取是在将图片输入CRNN模型前,所有图像都将高度设为统一的定值,宽度随比例变换;经过VGG网络的卷积池化层从输入图像中提取出空间特征信息,再输入到循环网络;特征序列是一组有序特征向量,而每个特征向量都是卷积输出特征图上的一列数据,从左到右顺序排列;特征向量的宽度为一个特征点,由于输入图像高度相同,所以特征向量的高度是不变的,特征向量的个数为特征图的宽度。上述一种基于深度学习的手写气象档案资料的字符识别方法,在步骤(2-2)中:构造BLSTM双向循环网络:序列标注是设RNN输入特征序列为x=x1,...,xT,向量xt的输出标签为yt;RNN的本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,包括如下步骤:/n(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;/n(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;/n(3)检查识别结果。/n

【技术特征摘要】
1.一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,包括如下步骤:
(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;
(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;
(3)检查识别结果。


2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。


3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,利用CTPN算法进行文本定位制作数据集:
先随机选取了50张扫描图片,用Xnview软件或其他截图软件将字符从扫描图片中截取并保存;然后将数据分成小批量送入模型,利用CTPN网络结构进行模型训练,每一批32张图片,共训练20轮次,得到文本定位后的结果;在CTPN定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。


4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,制作人工书写数据集:使用人工书写的方式按照档案数据的形式将数据誊写与纸面上,再将这些数据送入扫描仪成像,作为字符识别的数据集,裁剪保存;
邀请10人按照档案数据的形式将数据誊写于纸面上,再将这些数据送入扫描仪成像,裁剪保存;所有裁剪图片由人工比对图片字符信息进行命名,总共120178张;
在人工命名过程中,将裁剪图片中含有涂改字符的图片挑出,共5516张,命名为‘错’,即对应标签为‘错’,并不是对应修改后的信息;
挑出字迹不清难以区分,可能影响训练精度的图片,标签为字符信息,共7124张;
将所有挑出的图片单独存于一个文件夹,再从剩余字迹清晰无涂改的图片中随机挑选12000张图片,共24640张图片共同作为低质量数据集;
剩余图片制作高质量数据集,取出剩余图片的十分之一作为测试集;
低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按...

【专利技术属性】
技术研发人员:鞠晓慧张强战云健陈东辉王妍兰平
申请(专利权)人:国家气象信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1