一种购物票据的光学字符识别方法技术

技术编号:34422873 阅读:18 留言:0更新日期:2022-08-06 15:49
本发明专利技术公开了一种自然场景中购物票据图像的光学字符识别方法,该方法包括使用文本检测模块对原始图像进行区域检测获取票据文本图,以及使用文本识别模块对票据文本图进行文本识别。文本检测模块设置有显著性物体检测和文本检测至少两个任务,文本识别模块设置有基于Transformer的注意力模块。本发明专利技术公开的技术方案通过多任务模型的建立减少数据的过拟合,提高检测速度,通过基于Transformer的注意力模块将对齐过程和预测过程解耦,加快了推理速度并提高了文本识别精度。速度并提高了文本识别精度。速度并提高了文本识别精度。

【技术实现步骤摘要】
一种购物票据的光学字符识别方法


[0001]本专利技术属于计算机视觉领域,尤其涉及一种购物票据的光学字符识别方法。

技术介绍

[0002]光学字符识别(optical character recognition,OCR)技术是以标准的编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换技术。该技术消除了将文档手动键入计算机系统的需求,在多个行业广泛使用,例如银行、商场、酒店、物流等。根据识别场景,可大致将OCR技术分为识别特定场景的专用OCR和识别多种场景的通用OCR。根据所识别图片的内容,可将场景分为清晰且具有固定模式的简单场景和更为复杂的自然场景。自然场景文本识别的难度极高,原因包括:图片背景极为丰富,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题,而且文本的布局可能存在扭曲、褶皱、换向等问题,其中的文字也可能字体多样、字号字重颜色不一的问题。
[0003]购物票据的OCR技术对于购物商场尤为重要。为了提高用户粘性,购物商场通常会根据用户的消费情况开展多种优惠活动,比如,返回给用户能用于抵扣现金的积分。这需要准确获悉用户消费信息,然而,由于商场内各品牌票据电子化以及其他商业原因,这些信息一般很难直接获取。

技术实现思路

[0004]基于此,本专利技术的目的是通过建立多任务的文本检测模型和基于Trans

former注意力模块的文本识别模型,实现在自然场景中对票据文本信息的快速且高精度的识别,解决现有技术中自然场景中的票据识别出错率高的问题。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种购物票据的光学字符识别的方法,该方法包括:
[0007]S1:使用文本检测模块对原始图像进行区域检测,获取票据文本图;所述原始图像包括票据背景和票据文本,所述票据文本图包括票据文字信息和票据条码信息;所述区域检测的方法包括,对原始图像进行数据增强,选用第一深度神经网络提取票据特征图,建立显著性物体检测和文本检测至少两个任务,所述显著性物体检测用于获取票据轮廓,所述文本检测用于获取所述票据轮廓内的票据文本图;
[0008]S2:使用文本识别模块对步骤S1获取的所述票据文本图进行文本识别,获取文本文字内容;所述文本识别模块包括STN矫正网络、特征提取网络、基于Transformer的注意力模块以及Transformer解码器;所述基于Transformer的注意力模块包括,Transformer注意力权重和注意力机制;
[0009]其中,所述对票据文本图进行文本识别的方法包括:
[0010]输入票据文本图,通过STN矫正网络矫正图像拍摄问题,所述图像拍摄问题包括扭曲、弯折和视角问题;
[0011]选用第二深度神经网络将票据文本图压缩成第一序列,所述第一序列包括若干向
量;
[0012]发送所述第一序列至所述基于Transformer的注意力模块,经过学习注意力权重以及更新模块参数,输出第二序列;
[0013]所述第二序列经Transformer解码器解码获取第三序列,所述第三序列经概率映射输出所述输入票据文本图的预测文本内容。
[0014]具体地,所述文本检测选用递进聚合的方法。
[0015]优选地,所述第一深度神经网络包括残差神经网络组件,选用可变形卷积。
[0016]优选地,所述第一序列的长度为输入票据文本图图像宽度的四分之一。
[0017]具体地,所述第一序列中每个向量的维度为所述第二深度神经网络的最后一层卷积网络输出的通道数。
[0018]具体地,所述第三序列包括若干预测向量,所述各预测向量的维数等于对应字符类别数,选用softmax函数将预测向量的值映射到概率空间,获取对应字符的概率值,选取概率值最大的字符组成预测文本内容。
[0019]具体地,所述文本检测模块和所述文本识别模块的训练集样本由人工合成,所述人工合成训练集样本的步骤包括,随机生成文本边距,从票据背景库、票据语料库和票据字体库中选取数据,将语料数据按照字体数据的规范,写入背景数据中,并模拟自然场景下各种图像损耗。
[0020]更近一步地,所述图像损耗,包括模糊、弯曲、亮度损耗、颜色损耗、锐度损耗、随时线条和随机噪声。
[0021]更近一步地,所述票据背景库包括原始图像的票据背景,所述票据语料库包括票据通用语料和票据标注语料,所述票据字体库包括票据常用字体。
[0022]具体地,所述对原始图像进行数据增强的方法包括,随机尺度变换、随机水平翻转、随机旋转以及随机裁剪操作。
[0023]本专利技术公开的上述技术方案具有如下的有益效果:
[0024]1)多任务检测模型的构建,去除原始图像中购物票据之外的文本信息,减少计算网络的过拟合,为后续的应用以及购物票据的图像矫正提供基础;
[0025]2)对原始图像的数据增强,提升文本检测的鲁棒性和精度;
[0026]3)特征提取网络采用可变形卷积,提升处理复杂图像文本信息的能力;
[0027]4)基于Transformer的注意力模块,将对齐过程与预测过程解耦,提高文本识别的精度;
[0028]5)人工合成训练集样本对文本检测模块和文本识别模块进行训练,提高模型的泛化能力。
附图说明
[0029]图1是本专利技术购物票据文本检测模块结构图;
[0030]图2是本专利技术购物票据文本识别模块结构图;
[0031]图3是本专利技术人工合成训练集样本的流程图。
具体实施方式
[0032]为了使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例,对本专利技术的具体实施方式作进一步详细描述。应该理解,此处所描述的实施例仅用于解释本专利技术,但不用于限制本专利技术的范围。
[0033]请参阅附图1和图2,图1是本专利技术购物票据文本检测模块结构图,图2是本专利技术购物票据文本识别模块结构图,由图1和图2可知:
[0034]本专利技术公开了一种购物票据的光学字符识别的方法,该方法包括:
[0035]S1:使用文本检测模块对原始图像进行区域检测,获取票据文本图;原始图像包括票据背景和票据文本,票据文本图包括票据文字信息和票据条码信息;区域检测的方法包括,对原始图像进行数据增强,选用第一深度神经网络提取票据特征图,建立显著性物体检测和文本检测至少两个任务,显著性物体检测用于获取票据轮廓,文本检测用于获取票据轮廓内的票据文本图;
[0036]对购物票据的原始图像进行数据增强。为保证模型的批次训练,针对同一批次数据进行相同的数据增强方法,数据分别以一定的概率进行不同类别的数据增强,包括随机尺度变换、随机水平翻转、随机旋转以及随机裁剪操作,某一批次数据可能采用上述零种或多种操作。
[0037]经过数据强的原始图像经过第一深度神经网络进行特征提取获取特征图,该第一深度神经网络由残差神经网络组件构成,网络的整体结构类似于特征金字塔网络,网络中每次下采样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种购物票据的光学字符识别的方法,其特征在于,该方法包括:S1:使用文本检测模块对原始图像进行区域检测,获取票据文本图;所述原始图像包括票据背景和票据文本,所述票据文本图包括票据文字信息和票据条码信息;所述区域检测的方法包括,对原始图像进行数据增强,选用第一深度神经网络提取票据特征图,建立显著性物体检测和文本检测至少两个任务,所述显著性物体检测用于获取票据轮廓,所述文本检测用于获取所述票据轮廓内的票据文本图;S2:使用文本识别模块对步骤S1获取的所述票据文本图进行文本识别,获取文本文字内容;所述文本识别模块包括STN矫正网络、特征提取网络、基于Transformer的注意力模块以及Transformer解码器;所述基于Transformer的注意力模块包括,Transformer注意力权重和注意力机制;其中,所述对票据文本图进行文本识别的方法包括:输入票据文本图,通过STN矫正网络矫正图像拍摄问题,所述图像拍摄问题包括扭曲、弯折和视角问题;选用第二深度神经网络将票据文本图压缩成第一序列,所述第一序列包括若干向量;发送所述第一序列至所述基于Transformer的注意力模块,经过学习注意力权重以及更新模块参数,输出第二序列;所述第二序列经Transformer解码器解码获取第三序列,所述第三序列经概率映射输出所述输入票据文本图的预测文本内容。2.根据权利要求1所述的光学字符识别的方法,其特征在于,所述文本检测选用递进聚合的方法。3.根据权利要求1所述的光学字符识别的方法,其特征在于,...

【专利技术属性】
技术研发人员:张海军任狼
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1