【技术实现步骤摘要】
一种基于深度学习的手写气象档案资料的字符识别方法
本专利技术涉及手写气象档案资料识别
具体地说是一种基于深度学习的手写气象档案资料的字符识别方法。
技术介绍
气象档案为气象监测与科学研究等各个领域提供着重要的数据支持,具有很高的保存与研究价值。现存许多的历史气象档案多为手写纸质档案,为了更妥善的保存与保护,利用科技手段数字化储存十分有必要。气象档案数字化的常规方法是人工比对数据并录入,最终以电子档案的形式进行保存。人工整理流程繁杂,录入精度较低且耗时太长,通常需要投入大批量的人力物力,效率也得不到保障。近些年来,人工智能技术取得长足进步,为工业生产带来了诸多便利,以人工智能代替人工是时代的潮流。采用深度学习的方法对要录入的内容进行自动识别,减少人工工作量,提升工作效率。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案,更有效的利用气象资料,将气象档案数字化非常有必要。字符识别是气象档案数字化的重要任务。字符识别任务可分为手写字识别和印刷字识别,手写字符识别又可分为联机识别与脱机识别。印刷体字符形状规则,结构清晰,便于识别。手写字符受每个人的用笔方式,书写习惯,文化背景等因素的影响,书写的字符差异较大,较难识别。脱机识别是指先将纸质文字信息通过扫描仪等扫描仪器转换为图片信息,再进行快速识别的过程,大多用于工整清晰的印刷体字符识别。联机识别是指利用触压电子屏,电子手写板等仪器手动书写,仪器根据书写的笔画与顺序进行识别,现在广泛应用于移动设备输入法程序的手写输入识别,识别精度较高。 ...
【技术保护点】
1.一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,包括如下步骤:/n(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;/n(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;/n(3)检查识别结果。/n
【技术特征摘要】
1.一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,包括如下步骤:
(1)图像预处理与字符识别数据集制作:将纸质气象档案扫描为数字图像格式,先做图像预处理,再使用CTPN算法定位字符位置,和人工书写的影像数据共同构建字符识别数据集;
(2)字符识别:将字符识别数据集送入CRNN识别模型进行识别;
(3)检查识别结果。
2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,利用CTPN算法进行文本定位制作数据集:
先随机选取了50张扫描图片,用Xnview软件或其他截图软件将字符从扫描图片中截取并保存;然后将数据分成小批量送入模型,利用CTPN网络结构进行模型训练,每一批32张图片,共训练20轮次,得到文本定位后的结果;在CTPN定位模型训练完成后,又以定位模型对文本目标位置进行提取,自动裁剪保存。
4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的字符识别方法,其特征在于,在步骤(1)中,制作人工书写数据集:使用人工书写的方式按照档案数据的形式将数据誊写与纸面上,再将这些数据送入扫描仪成像,作为字符识别的数据集,裁剪保存;
邀请10人按照档案数据的形式将数据誊写于纸面上,再将这些数据送入扫描仪成像,裁剪保存;所有裁剪图片由人工比对图片字符信息进行命名,总共120178张;
在人工命名过程中,将裁剪图片中含有涂改字符的图片挑出,共5516张,命名为‘错’,即对应标签为‘错’,并不是对应修改后的信息;
挑出字迹不清难以区分,可能影响训练精度的图片,标签为字符信息,共7124张;
将所有挑出的图片单独存于一个文件夹,再从剩余字迹清晰无涂改的图片中随机挑选12000张图片,共24640张图片共同作为低质量数据集;
剩余图片制作高质量数据集,取出剩余图片的十分之一作为测试集;
低质量数据集和高质量数据集这两个数据集分别将所有裁剪图像的图片路径与标签名称按...
【专利技术属性】
技术研发人员:鞠晓慧,张强,战云健,陈东辉,王妍,兰平,
申请(专利权)人:国家气象信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。