【技术实现步骤摘要】
一种基于深度学习的手写气象档案资料的文本定位方法
本专利技术涉及文本定位
具体地说是一种基于深度学习的手写气象档案资料的文本定位方法。
技术介绍
气象观测资料是指在特定监测区域利用各种方法,各种观测设备获取的气温、气压、风速、风向等的气象数据。气象资料是天气预测、污染防治、农业生产、科学研究等领域的数据基础,气象资料的记录与保存有十分重要的意义。早期档案的记录都由观测人员手写记录在纸质文件中,随着时间的推移,纸质档案会发生老化损毁与丢失,记录的数据也会变得模糊,不利于长久的保存。且纸质档案在信息传播过程中往往是点到点的传递,或是小范围点到面的传递,传播速度慢,覆盖面积小,很难充分利用其经济与社会价值,也很难跟上现代化的高速发展。将数字信号存储于计算机中统一管理,建立数字化档案信息库,可结合网络共享资源。纸质气象档案数字化将大大方便档案的管理、传播与使用。为了长久的保护保存档案,更有效的利用气象资料,将气象档案数字化非常有必要。气象资料主要由数字与气象符号组成,保存的形式多种多样。结合计算机技术、扫描技术、光学 ...
【技术保护点】
1.一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,包括如下步骤:/n(1)图像预处理与数据集准备:将纸质气象档案扫描为数字图像格式,先做图像预处理,再提取表格制作文本定位数据集;/n(2)文本定位:将数据集图像裁剪成小区域,使用CTPN深度学习模型在小区域范围内定位字符位置;/n(3)检查定位效果。/n
【技术特征摘要】
1.一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,包括如下步骤:
(1)图像预处理与数据集准备:将纸质气象档案扫描为数字图像格式,先做图像预处理,再提取表格制作文本定位数据集;
(2)文本定位:将数据集图像裁剪成小区域,使用CTPN深度学习模型在小区域范围内定位字符位置;
(3)检查定位效果。
2.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,在步骤(1)中包括如下步骤:
图像预处理包括:
(a)中值滤波:对图像做了中值滤波处理,平滑图像信息,为图像二值化做准备;
(b)OTSU二值化:采取OTSU算法自动选取二值化阈值,将降噪过的图片做自适应阈值二值化处理;
(c)霍夫直线检测:使用霍夫变换检测倾斜角度并校正图像,霍夫变换将图片信息由图像空间变换到霍夫空间,图像空间当中的相交直线转换为霍夫空间中的点,在霍夫空间形成峰值,峰值就是相交直线的个数;采用霍夫变换对二值化图片中的长直线进行提取,获得各个直线的倾斜角度;
(d)倾斜校正:对扫描图像进行倾斜矫正,取所有倾斜角的均值,用旋转函数将图像进行校正,以保证后面的步骤能够顺利进行;
(e)表格提取:对倾斜校正过的二值图做形态学开运算,先做腐蚀后做膨胀,其中腐蚀与膨胀的核分别为N*1与1*N,只保留竖线,剔除了横线;再做1*N的腐蚀和N*1的膨胀,只保留了横线,剔除了竖线;腐蚀操作会将文字非直线像素抹消,再将两次操作的结果叠合;
(f)按表格截取局部图像:调用OpenCV函数搜索图中轮廓,根据轮廓信息裁剪原始图像并保存。
3.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,提取表格制作文本定位数据集的方法为:采用人工勾画的方式,将按表格区域裁剪出的图像以矩形框的形式对目标字符进行框选,目标字符的位置信息会以HTML文件的格式与图片一一对应保存,位置信息为矩形框在图像中的点坐标;一张区域图像含有多行字符数据信息,提取HTML文件中所有目标的位置信息,按行储存于一个txt文件中,在区域图片与对应的标签txt文件中取十分之一作为测试集,其余作为训练集。
4.根据权利要求1所述的一种基于深度学习的手写气象档案资料的文本定位方法,其特征在于,...
【专利技术属性】
技术研发人员:鞠晓慧,张强,王妍,陈东辉,范邵华,罗岚心,
申请(专利权)人:国家气象信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。