一种购物票据的光学字符识别方法技术

技术编号：34422873 阅读：18 留言：0更新日期：2022-08-06 15:49

本发明专利技术公开了一种自然场景中购物票据图像的光学字符识别方法，该方法包括使用文本检测模块对原始图像进行区域检测获取票据文本图，以及使用文本识别模块对票据文本图进行文本识别。文本检测模块设置有显著性物体检测和文本检测至少两个任务，文本识别模块设置有基于Transformer的注意力模块。本发明专利技术公开的技术方案通过多任务模型的建立减少数据的过拟合，提高检测速度，通过基于Transformer的注意力模块将对齐过程和预测过程解耦，加快了推理速度并提高了文本识别精度。速度并提高了文本识别精度。速度并提高了文本识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种购物票据的光学字符识别方法

[0001]本专利技术属于计算机视觉领域，尤其涉及一种购物票据的光学字符识别方法。

技术介绍

[0002]光学字符识别(optical character recognition,OCR)技术是以标准的编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换技术。该技术消除了将文档手动键入计算机系统的需求，在多个行业广泛使用，例如银行、商场、酒店、物流等。根据识别场景，可大致将OCR技术分为识别特定场景的专用OCR和识别多种场景的通用OCR。根据所识别图片的内容，可将场景分为清晰且具有固定模式的简单场景和更为复杂的自然场景。自然场景文本识别的难度极高，原因包括：图片背景极为丰富，经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，而且文本的布局可能存在扭曲、褶皱、换向等问题，其中的文字也可能字体多样、字号字重颜色不一的问题。
[0003]购物票据的OCR技术对于购物商场尤为重要。为了提高用户粘性，购物商场通常会根据用户的消费情况开展多种优惠活动，比如，返回给用户能用于抵扣现金的积分。这需要准确获悉用户消费信息，然而，由于商场内各品牌票据电子化以及其他商业原因，这些信息一般很难直接获取。

技术实现思路

[0004]基于此，本专利技术的目的是通过建立多任务的文本检测模型和基于Trans
‑
former注意力模块的文本识别模型，实现在自然场景中对票据文本信息的快速且高精度的识别，解决现有技术中自然场景中的票据识别出错率高的问题。...

【技术保护点】

【技术特征摘要】
1.一种购物票据的光学字符识别的方法，其特征在于，该方法包括：S1：使用文本检测模块对原始图像进行区域检测，获取票据文本图；所述原始图像包括票据背景和票据文本，所述票据文本图包括票据文字信息和票据条码信息；所述区域检测的方法包括，对原始图像进行数据增强，选用第一深度神经网络提取票据特征图，建立显著性物体检测和文本检测至少两个任务，所述显著性物体检测用于获取票据轮廓，所述文本检测用于获取所述票据轮廓内的票据文本图；S2：使用文本识别模块对步骤S1获取的所述票据文本图进行文本识别，获取文本文字内容；所述文本识别模块包括STN矫正网络、特征提取网络、基于Transformer的注意力模块以及Transformer解码器；所述基于Transformer的注意力模块包括，Transformer注意力权重和注意力机制；其中，所述对票据文本图进行文本识别的方法包括：输入票据文本图，通过STN矫正网络矫正图像拍摄问题，所述图像拍摄问题包括扭曲、弯折和视角问题；选用第二深度神经网络将票据文本图压缩成第一序列，所述第一序列包括若干向量；发送所述第一序列至所述基于Transformer的注意力模块，经过学习注意力权重以及更新模块参数，输出第二序列；所述第二序列经Transformer解码器解码获取第三序列，所述第三序列经概率映射输出所述输入票据文本图的预测文本内容。2.根据权利要求1所述的光学字符识别的方法，其特征在于，所述文本检测选用递进聚合的方法。3.根据权利要求1所述的光学字符识别的方法，其特征在于，...

【专利技术属性】
技术研发人员：张海军，任狼，
申请(专利权)人：哈尔滨工业大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人