【技术实现步骤摘要】
一种基于深度神经网络的自然图像字符识别方法及系统
本专利技术属于目标字符识别
,更具体地,涉及一种基于深度神经网络的自然图像字符识别方法及系统。
技术介绍
随着现代科学技术的不断发展与互联网的广泛普及,数字图像信息资源也呈现出指数级的增长,工作生活中需要人工记录大量图像信息。因此如何快速准确地将自然图像中需要记录的文字信息直接通过计算机识别出来成为了一个亟待解决的问题。目前的光学字符识别(OpticalCharacterRecognition,OCR)模型主要分为字符分割和字符识别两个部分,但是传统的字符分割方法均需要通过滑动窗口的选择和SVM的大量计算分类正负样本,这些方法通常涉及到的计算量非常庞大,无法做到实时完成线上测试。另一方面,传统的字符识别方法均是通过人工选取文字特征来解决特征提取问题,而这类人工选取特征通常会在特征的准确性和全面性上有误差,不仅如此,自然图像的像素信息缺失或者光照问题也会导致识别准确率下降。因此,一个表现优秀的字符检测识别系统必须具备高效的字符分割能力和高鲁棒性的字符识别能力。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利 ...
【技术保护点】
1.一种基于深度神经网络的自然图像字符识别方法,其特征在于,包括如下步骤:(1)采集待识别自然场景的多帧图像,并将同一目标的多帧图像根据各像素点的辐射度进行加权,融合得到HDR图像;对融合得到的HDR图像进行阈值化和标准化处理得到二值图像,并对二值图像按比例压缩进行尺寸裁剪,得到预处理图像;(2)采用开源的字符检测图像库训练RPN网络得到深度神经网络模型作为字符定位器;利用所述字符定位器对自然图像进行判定,将其中含有字符的图像块判定为正样本;通过对正样本回归拟合得到字符所在位置的坐标;通过位置坐标信息将预处理图像进行分割,得到待识别的字符图像块的集合;(3)采用包含印刷体和 ...
【技术特征摘要】
1.一种基于深度神经网络的自然图像字符识别方法,其特征在于,包括如下步骤:(1)采集待识别自然场景的多帧图像,并将同一目标的多帧图像根据各像素点的辐射度进行加权,融合得到HDR图像;对融合得到的HDR图像进行阈值化和标准化处理得到二值图像,并对二值图像按比例压缩进行尺寸裁剪,得到预处理图像;(2)采用开源的字符检测图像库训练RPN网络得到深度神经网络模型作为字符定位器;利用所述字符定位器对自然图像进行判定,将其中含有字符的图像块判定为正样本;通过对正样本回归拟合得到字符所在位置的坐标;通过位置坐标信息将预处理图像进行分割,得到待识别的字符图像块的集合;(3)采用包含印刷体和手写体的字符图像数据库来训练一个三接口的CNN网络,将获得的深度神经网络模型作为字符识别器;将步骤(2)得到待识别字符图像块的集合输入该字符识别器,得到初步识别结果;(4)训练一个基于字符的LSTM预测模型作为合理性判断器;将所述的初步识别结果中的连续中文作为字符数列输入到所述合理性判断器,将所述合理性判断器的输出作为自然语言预测结果;并将所述自然语言预测结果与所述初步识别结果根据预设权重进行加权得到加权值,根据加权值排序得到最终的识别结果。2.如权利要求1所述的基于深度神经网络的自然图像字符识别方法,其特征在于,所述步骤(1)包括如下子步骤:(1.1)采集待识别自然场景的2帧或2帧以上的图像,将同一目标的多帧图像按照特征点配准原则进行匹配,根据曝光时间以及CMOS灰度值,得到像素点原本的辐射度;(1.2)计算辐射度图像合成一幅图像后每个像素点处的权重;(1.3)通过加权求和得到最佳的HDR图像;(1.4)将所述HDR图像进行阈值化和标准化处理得到二值图像,并通过按比例压缩尺寸裁剪,得到预处理图像。3.如权利要求1或2所述的基于深度神经网络的自然图像字符识别方法,其特征在于,所述步骤(2)包括如下子步骤:(2.1)采用在ImageNet数据库上训练好的VGG19网络参数作为初始化数据,采用开源的字符检测图像库作为训练数据训练RPN网络,得到用于字符定位的深度神经网络模型,作为字符定位器;(2.2)通过所述字符定位器对所述预处理图像提取基础特征,并以卷积特征块上的每个像素点为中心构造9种窗口,完成对整幅图像的窗口遍历;(2.3)求取遍历得到的窗口与真实隔离开关的映射窗口之间的重叠部分,将重叠部分超过70%的窗口判定为正样本,将重叠部分小于30%的窗口判定为负样本,来训练所述字符定位器使之具备判断图像块是否为目标字符的能力;(2.4)对识别出的正样本图像块进行窗口精修;并对精修后的正样本图像块的坐标值的进行回归拟合得到精确的字符所在位置信息;(2.5)通过所述位置信息将待识别图像进行分割,得到字符图像块的集合;(2.6)对所述字符图像块的集合进行阈值化和腐蚀膨胀操作,得到待识别的字符图像集。4.如权利要求3所述的基于深度神经网络的自然图像字符识别方法,其特征在于,所述步骤(2.4)包括如下子步骤:(2.4.1)获取候选窗口的坐标P=(Px,Py,Pw,Ph);(2.4.2)通过用于字符定位的深度神经网络模型的回归拟合得到精修需要的评析量和尺度放缩量,根据所述评析量和尺度放缩量通过几何变换得到精修后的坐标。5....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。