【技术实现步骤摘要】
一种自然场景票据图像的提取与矫正方法
[0001]本专利技术涉及图像分类与分割领域,更具体地,涉及一种自然场景票据图像的提取与矫正方法。
技术介绍
[0002]各类票据在商业场景中无处不在,是交易、缴付租金以及报销的主要凭证。票据信息化主要使用的是OCR和关键信息提取处理技术,先识别在自然场景中拍摄的票据内容再提取票据关键信息。随着深度学习技术在计算机视觉与自然语言处理上的深入应用、 OCR与关键信息提取领域相关技术的不断发展,学术界出现了很多新的科研成果,使得票据信息化的项目在工业界逐渐落地。
[0003]票据信息化主要关注的是场景文本识别和关键信息提取两个领域的内容。相较于传统的光学文字识别,场景文本识别面对的问题更加复杂。传统的光学文字识别处理的大多是扫描、固定拍摄、统一规格的票据图像,经过简单的图像处理,能达到较高的识别准确率。而场景文本识别的图像会存在文本形状和文本方向变化、背景文本的干扰以及人工拍摄时视角多变等问题,识别准确率受自然场景的干扰很大。关键信息提取则受限于OCR的准确率和票据的类型,当票据类型增加时,需要根据不同票据类型提取对应的关键信息。
[0004]现有的自然场景票据旋转矫正方法,主要分为两大类:1.使用正向的图像旋转多个角度,再使用图像分类的方法训练文字角度分类模型;2.采用神经网络热点图提取关键点,再使用图像学的方法统一矫正到同一个尺度上。第一类方法需要做大量的角度分类旋转工作,没有考虑图像的视角和票据图像本身的形变的影响;第二类方法中,基于票据关键点的回归预测精度有待
【技术保护点】
【技术特征摘要】
1.一种自然场景票据图像的提取与矫正方法,其特征在于,包括以下步骤:步骤S01,收集自然场景下拍摄的各类票据图像,根据票据的类型和票据文字的方向进行人工分类,从而获得每张票据图像的类型标签和方向标签;步骤S02,对票据图像进行预处理,将票据图像统一缩放成固定大小,并对票据图像做随机错切、旋转、裁剪等图像增强操作;步骤S03,构建多标签分类的深度神经网络,对票据图像进行类型和文字方向的分类,此神经网络由一个骨干网络DenseNet
‑
169和两个分支全连接层组成,DenseNet
‑
169负责从图像中提取特征,每一个全连接层共享提取的特征信息,分别负责不同的分类任务;步骤S04,在训练阶段,使用交叉熵损失函数度量全连接层输出的预测结果与标签之间的误差,损失由两个全连接层计算的误差乘以不同的权重参数并相加得到;在反向传播时,利用SGD优化器得到损失最低的多标签分类模型;步骤S05,利用训练好的多标签分类模型对待分类的票据图像进行分类,得到图像的票据类型和文字方向,接着根据得到的文字方向对票据图像进行旋转矫正;步骤S06,收集自然场景中拍摄的各类票据,并在收集的图像上人工地将票据的主体区域使用多边形标出;步骤S07,对标注的图像进行数据清洗,减少数据标注的错误,在标注的图像上随机地加入图像增强操作,并根据标注的坐标转化为掩膜图像作为训练的标签;步骤S08,采用深度学习显著区域提取网络U2‑
Net,处理自然场景中的票据图像,提取各类票据的主体区域,此神经网络由嵌套的U
‑
Net网络组成,每一层的U
‑
Net输出该层预测的特征图,并将这些输出的特征图融合得到票据主体区域的概率图;步骤S09,U2‑
Net训练阶段的损失函数由每一层输出的特征图与标注区域掩膜的交叉熵损失相加组成,训练时使用Adam优化器,最后保存损失最低的模型;步骤S10,输入自然场景中的票据图像到训练好的模型中,得到票据主体区域的概率图,根据输出的概率图映射到原图中的区域,获得票据主体区域图;步骤S11,根据步骤S05获得的票据类型与步骤S10得到票据的主体区域,使用后处理的方法对票据的视角和文字小角度进行微调,得到无背景干扰、文字方向为正的票据主体区域。2.根据权利要求1所述的一种自然场景票据图像的提取与矫正方法,其特征在于,步骤S03所述的多标签分类的深度神经网络由一个骨干网络DenseNet
‑
169和两个分支全连接层组成,主要结构如下:DenseNet
‑
169主要由四个具有紧密连接性质的稠密块(Dense Block)组成,相邻两个稠密块之间有一层过渡层(Transition Layer)。在DenseNet
‑
169最后输出的特征图上,分别接了两个全连接层,共享特征图信息,处理不同的分类任务。3.根据权利要求1所述的一种自然场景票据图像的提取与矫正方法,其特征在于,步骤S07中所述的数据增强与训练标签的生成,具体步骤如下:步骤S07
‑
1,在标注数据上检查标注票据主体区域的关键点是否正确,形成初始数据集;步骤S07
‑
2,随机地选择加入图像缩放、直方图变换化、亮度变化、高斯模...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。