当前位置: 首页 > 专利查询>湖南大学专利>正文

一种自然场景票据图像的提取与矫正方法技术

技术编号:37583685 阅读:18 留言:0更新日期:2023-05-15 07:57
本发明专利技术涉及图像分类与分割领域,尤其为一种自然场景票据图像的提取与矫正方法,其具体步骤如下:对票据类型与文字方向进行手工标注,对标注好的数据进行图像增强操作,构建多标签分类网络进行训练,获得训练好的模型后对票据进行分类以及文字方向矫正;对自然场景票据图像的主体区域进行标注,在标注数据上加入图像增强操作后,生成训练需要的掩膜标签,使用显著区域网络U2‑

【技术实现步骤摘要】
一种自然场景票据图像的提取与矫正方法


[0001]本专利技术涉及图像分类与分割领域,更具体地,涉及一种自然场景票据图像的提取与矫正方法。

技术介绍

[0002]各类票据在商业场景中无处不在,是交易、缴付租金以及报销的主要凭证。票据信息化主要使用的是OCR和关键信息提取处理技术,先识别在自然场景中拍摄的票据内容再提取票据关键信息。随着深度学习技术在计算机视觉与自然语言处理上的深入应用、 OCR与关键信息提取领域相关技术的不断发展,学术界出现了很多新的科研成果,使得票据信息化的项目在工业界逐渐落地。
[0003]票据信息化主要关注的是场景文本识别和关键信息提取两个领域的内容。相较于传统的光学文字识别,场景文本识别面对的问题更加复杂。传统的光学文字识别处理的大多是扫描、固定拍摄、统一规格的票据图像,经过简单的图像处理,能达到较高的识别准确率。而场景文本识别的图像会存在文本形状和文本方向变化、背景文本的干扰以及人工拍摄时视角多变等问题,识别准确率受自然场景的干扰很大。关键信息提取则受限于OCR的准确率和票据的类型,当票据类型增加时,需要根据不同票据类型提取对应的关键信息。
[0004]现有的自然场景票据旋转矫正方法,主要分为两大类:1.使用正向的图像旋转多个角度,再使用图像分类的方法训练文字角度分类模型;2.采用神经网络热点图提取关键点,再使用图像学的方法统一矫正到同一个尺度上。第一类方法需要做大量的角度分类旋转工作,没有考虑图像的视角和票据图像本身的形变的影响;第二类方法中,基于票据关键点的回归预测精度有待提高,其次将所有类型的票据统一到同一个尺度上的做法,使得后续图像学方法无法适应有多种不同形状票据的应用场景,泛化性不强。此外,这两类方法都不能处理自然场景中背景干扰的问题,当自然背景中存在图像文本时,文字检测识别的精度会降低,同时多余的文字对后续关键信息的提取会有极大的干扰。因此,一个能处理自然背景干扰、视角和文字角度变化问题的方法对后续的OCR及关键信息提取任务有着一定的意义。

技术实现思路

[0005]为了解决现有技术存在的问题以及满足关键信息提取的需求,本专利技术提供了一种自然场景票据的提取与矫正方法。目的在于通过两个深度学习方法完成不同的任务:第一,在自然场景拍摄的票据图像中提取票据的主体区域,并根据不同的票据类型使用不同的后处理方式,去除自然场景票据图像中的背景区域;第二,对票据的视角和文字角度进行矫正。这两个方法有效地解决了背景干扰的问题,基于显著区域检测的分割方法对像素进行分类的精度较高,能处理不同场景下的多种票据类型,通过后处理对拍摄视角的矫正能一定程度改善票据本身形变的情况。为实现上述任务,自然场景票据图像的提取与矫正方法主要的步骤如下:
[0006]步骤S01,收集自然场景下拍摄的各类票据图像,根据票据的类型和票据文字的方向进行人工分类,从而获得每张票据图像的类型标签和方向标签;
[0007]步骤S02,对票据图像进行预处理,将票据图像统一缩放成固定大小,并对票据图像做随机错切、旋转、裁剪等图像增强操作,增加训练的数据量、增强数据的鲁棒性;
[0008]步骤S03,构建多标签分类的深度神经网络,对票据图像进行类型和文字方向的分类,此神经网络由一个骨干网络DenseNet

169和两个分支全连接层组成;DenseNet

169 负责从图像中提取特征,每一个全连接层共享提取的特征信息,分别负责不同的分类任务;
[0009]步骤S04,在训练阶段,使用交叉熵损失函数度量全连接层输出的预测结果与标签之间的误差,损失由两个全连接层计算的误差乘以不同的权重参数并相加得到,使用不同的权重参数可以平衡不同任务的训练难度;在反向传播时,利用SGD优化器得到损失最低的多标签分类模型;
[0010]步骤S05,利用训练好的多标签分类模型对待分类的票据图像进行分类,得到图像的票据类型和文字方向,接着根据得到的文字方向对票据图像进行旋转矫正。
[0011]步骤S06,收集自然场景中拍摄的各类票据,并在收集的图像上人工地将票据的主体区域使用多边形标出;
[0012]步骤S07,对标注的图像进行数据清洗,减少数据标注的错误,在标注的图像上随机地加入图像增强操作,以获得更多的训练数据,根据标注的坐标转化为掩膜图像作为训练的标签;
[0013]步骤S08,采用深度学习显著区域检测网络U2

Net,处理自然场景中的票据图像,提取各类票据的主体区域。此神经网络由嵌套的U

Net网络组成,每一层的U

Net输出该层预测的特征图,并将这些输出的特征图融合得到票据主体区域的概率图;
[0014]步骤S09,U2

Net训练阶段的损失函数由每一层输出的特征图与标注区域掩膜的交叉熵损失相加组成,训练时使用Adam优化器,最后保存损失最低的模型;
[0015]步骤S10,输入自然场景中的票据图像到训练好的模型中,得到票据主体区域的概率图,根据输出的概率图映射到原图中的区域,获得自然场景图像的票据主体区域;
[0016]步骤S11,根据步骤S05获得的票据类型与步骤S10得到票据的主体区域,使用后处理的方法对票据的视角和文字小角度进行微调,得到无背景干扰、文字方向为正的票据主体区域。
[0017]进一步的,步骤S03所述的多标签分类的深度神经网络由一个骨干网络 DenseNet

169和两个分支全连接层组成,主要结构如下:
[0018]DenseNet

169主要由四个具有紧密连接性质的稠密块(Dense Block)组成,相邻两个稠密块之间有一层过渡层(Transition Layer),其目的是通过卷积和池化来更改特征图的大小从而能连接两个相邻的稠密块。
[0019]在DenseNet

169最后输出的特征图上,分别接了两个全连接层,共享特征图信息,用于不同的分类任务。
[0020]进一步的,步骤S07中所述的数据增强与训练标签的生成,具体步骤如下:
[0021]步骤S07

1,在标注数据上检查标注票据主体区域的关键点是否正确,形成初始数据集;
[0022]步骤S07

2,随机地选择加入图像缩放、直方图变换、亮度变化、高斯模糊、方向旋
转、椒盐噪声等图像增强方法操作的一种或者多种,获得更多的鲁棒性数据,并作为训练数据集的一部分;
[0023]步骤S07

3,训练数据集中人工标注的票据主体区域关键点,将标注的票据主体区域与自然背景区域做划分并提取,并生成原图的掩膜作为训练标签。
[0024]进一步的,步骤S08的深度学习模型U2

Net由嵌套的U

Net网络组成,主要结构如下:
[0025]第一层的U
...

【技术保护点】

【技术特征摘要】
1.一种自然场景票据图像的提取与矫正方法,其特征在于,包括以下步骤:步骤S01,收集自然场景下拍摄的各类票据图像,根据票据的类型和票据文字的方向进行人工分类,从而获得每张票据图像的类型标签和方向标签;步骤S02,对票据图像进行预处理,将票据图像统一缩放成固定大小,并对票据图像做随机错切、旋转、裁剪等图像增强操作;步骤S03,构建多标签分类的深度神经网络,对票据图像进行类型和文字方向的分类,此神经网络由一个骨干网络DenseNet

169和两个分支全连接层组成,DenseNet

169负责从图像中提取特征,每一个全连接层共享提取的特征信息,分别负责不同的分类任务;步骤S04,在训练阶段,使用交叉熵损失函数度量全连接层输出的预测结果与标签之间的误差,损失由两个全连接层计算的误差乘以不同的权重参数并相加得到;在反向传播时,利用SGD优化器得到损失最低的多标签分类模型;步骤S05,利用训练好的多标签分类模型对待分类的票据图像进行分类,得到图像的票据类型和文字方向,接着根据得到的文字方向对票据图像进行旋转矫正;步骤S06,收集自然场景中拍摄的各类票据,并在收集的图像上人工地将票据的主体区域使用多边形标出;步骤S07,对标注的图像进行数据清洗,减少数据标注的错误,在标注的图像上随机地加入图像增强操作,并根据标注的坐标转化为掩膜图像作为训练的标签;步骤S08,采用深度学习显著区域提取网络U2‑
Net,处理自然场景中的票据图像,提取各类票据的主体区域,此神经网络由嵌套的U

Net网络组成,每一层的U

Net输出该层预测的特征图,并将这些输出的特征图融合得到票据主体区域的概率图;步骤S09,U2‑
Net训练阶段的损失函数由每一层输出的特征图与标注区域掩膜的交叉熵损失相加组成,训练时使用Adam优化器,最后保存损失最低的模型;步骤S10,输入自然场景中的票据图像到训练好的模型中,得到票据主体区域的概率图,根据输出的概率图映射到原图中的区域,获得票据主体区域图;步骤S11,根据步骤S05获得的票据类型与步骤S10得到票据的主体区域,使用后处理的方法对票据的视角和文字小角度进行微调,得到无背景干扰、文字方向为正的票据主体区域。2.根据权利要求1所述的一种自然场景票据图像的提取与矫正方法,其特征在于,步骤S03所述的多标签分类的深度神经网络由一个骨干网络DenseNet

169和两个分支全连接层组成,主要结构如下:DenseNet

169主要由四个具有紧密连接性质的稠密块(Dense Block)组成,相邻两个稠密块之间有一层过渡层(Transition Layer)。在DenseNet

169最后输出的特征图上,分别接了两个全连接层,共享特征图信息,处理不同的分类任务。3.根据权利要求1所述的一种自然场景票据图像的提取与矫正方法,其特征在于,步骤S07中所述的数据增强与训练标签的生成,具体步骤如下:步骤S07

1,在标注数据上检查标注票据主体区域的关键点是否正确,形成初始数据集;步骤S07

2,随机地选择加入图像缩放、直方图变换化、亮度变化、高斯模...

【专利技术属性】
技术研发人员:张健林林津伊林红利
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1