一种基于端到端的通信大数据行程卡识别方法技术

技术编号:39805075 阅读:6 留言:0更新日期:2023-12-22 02:38
本发明专利技术涉及人工智能光学字符识别技术领域,具体而言,涉及一种基于端到端的通信大数据行程卡识别方法,该方法的步骤包括:依据文本框的尺寸信息对文本框进行调节矫正,使文本框尺寸满足调节所需的角度以及比例;通过预设的神经网络对矫正后的文本框进行分离特征提取,得出字体的特征数据,通过

【技术实现步骤摘要】
一种基于端到端的通信大数据行程卡识别方法


[0001]本专利技术涉及一种基于端到端的通信大数据行程卡识别方法


技术介绍

[0002]近年来,深度学习在文字识别上取得了巨大进步,性能已远远超于传统识别方法,对于文本框中文字的识别,常用的算法有
CRNN、CRNN+CTC
等,但是,对于大数据量下的文字识别,应考虑文字识别速度,且深度卷积神经网络很难直接处理文本识别的序列问题;并且现有算法在大数据量的情况下,识别速度有待提升;同时受拍摄行为的影响,图片可能模糊,受光照的影响,使得图片反光,以至于不能准确提取到相应文字,影响算法结果的准确性

针对上述问题,我们提供了一种基于端到端的通信大数据行程卡识别方法


技术实现思路

[0003]本专利技术的目的在于提供一种基于端到端的通信大数据行程卡识别方法,其将深度神经网络的分离网络及残差网络进行有效整合,可以更快更准的识别出文本框中的文字,在文字识别过程中,本方案采用的
Bi

GRU
相比于传统
Bi

LSTM
识别方式,在性能一致的情况下,参数更少,因此训练及预测速度更快,且与使用
softmax
进行参数优化的方式相比,本专利技术利用不需要对齐的
CTC

Bi

GRU
进行网络参数优化,使得优化更为合理,文字识别效果更好

[0004]本专利技术的实施例通过以下技术方案实现:
[0005]一种基于端到端的通信大数据行程卡识别方法,该方法的步骤包括:
[0006]依据文本框的尺寸信息对文本框进行调节矫正,使文本框尺寸满足调节所需的角度以及比例;
[0007]通过预设的神经网络对矫正后的文本框进行分离特征提取,得出字体的特征数据,通过
B i

GRU
循环神经网络结合激活函数获取特征数据所对应的文本数据

[0008]将深度神经网络的分离网络及残差网络进行有效整合,可以更快更准的识别出文本框中的文字,在文字识别过程中,本方案采用的
B i

GRU
相比于传统
Bi

LSTM
识别方式,在性能一致的情况下,参数更少,因此训练及预测速度更快

[0009]可选的,所述深度卷积神经网络为包括有分离卷积块和残差块的
DCNN
结构,所述提取文本框中字体的特征数据的具体步骤如下所示;
[0010]所述矫正处理后的文本框经过分离卷积块进行特征提取,所述分离卷积块中各通道采用不同的卷积核,对所述各通道卷积后的结果进行拼接,并作池化处理;
[0011]采用残差块对分离卷积块的输入进行卷积操作,将残差块输出与分离卷积块的结果相加,作为下一次分离卷积块的输入;
[0012]对最后一个输出量进行
f l atten
处理,并采用全链接层卷积提取特征作为文本框中字体的特征数据

[0013]使用分离卷积块将大大减少训练参数

使用残差块可使网络深度持续增加,以学
习到更多更有用的特征,每使用一次残差结构,其效果不会比其输入更差

本专利技术将二者有效整合,通过调整网络深度及参数,使得整个模型在训练速度及性能上均有提升

[0014]可选的,其中,所述分离卷积中单通道的卷积核为3乘
1、1
乘3或者3乘
3、1

1。
[0015]可选的,所述
Bi

GRU
循环神经网络具体如下式所示:
[0016][0017]y
t

σ
(W
o
·
H
t
)
[0018]其中,
y
t
表示在
t
时刻模型的输出,
W
o
表示权重,
h
t
为最终状态,为顺序隐藏参数,为逆序隐藏参数,
σ
为激活函数
s i gmo i d。
[0019]门控循环单元
GRU

LSTM
的变种,由重置门和更新门组成,
GRU
可以有选择性的保留相关信息,而丢弃无关信息
。GRU
结构简单,训练速度与预测速度快

[0020]可选的,其中,使用激活函数是为了防止梯度消失或者梯度爆炸

[0021]防止梯度消失或者梯度爆炸能够避免结果产生偏差

[0022]可选的,其中,
Bi

GRU
循环神经网络还采用链接式时序分类进行优化,优化过程中使用批量梯度下降法对
Bi

GRU
循环神经网络参数进行更新

[0023]一般采用
Softmax
进行固定分类的损失优化,而对于非固定长序列,
Softmax
则很难处理或者优化效果不明显,采用批量梯度下降法的优化效果较为明显

[0024]可选的,所述对文本框进行调节矫正处理时,具体包括以下步骤;
[0025]在文本框无倾斜的情况下,针对文字设计影响,对文本框进行字体矫正处理;
[0026]在文本框存在倾斜的情况下,针对拍摄行为影响,对文本框进行尺寸矫正处理,再对文本框进行字体矫正处理

[0027]由于受拍摄角度或者文本本身的设计的影响,图片内的文字可能呈现一定角度的倾斜,在文本框被检测算法检测到后,文字的角度不会改变,为了能更准确的识别出文字,将文本框作最大限度的校正处理

[0028]可选的,所述尺寸矫正处理包括旋转处理

腐蚀处理

对比度调节

压缩调节

膨胀调节;所述字体矫正处理包括腐蚀处理

对比度调节

压缩调节

膨胀调节

[0029]旋转处理:由于一般使用的文本框只有4个顶点,即左上

右上

左下

右下,因此可采用旋转技术将倾斜的文字作校正处理

[0030]本专利技术实施例的技术方案至少具有如下优点和有益效果:
[0031]本专利技术实施例将深度神经网络的分离网络及残差网络进行有效整合,与传统的统计学习方法

卷积神经网络相比,可以更快更准的识别出文本框中的文字,在文字识别过程中,本实施例采用的
Bi

GRU
相比于传统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于端到端的通信大数据行程卡识别方法,其特征在于,该方法的步骤包括:从图片中检测出文本框,并将文本框进行角度矫正;通过预训练的识别模型对矫正后的文本框进行文字识别,输出识别出的文字内容;所述识别模型包括深度卷积神经网络和
Bi

GRU
循环神经网络,深度卷积神经网络为包括有分离卷积块和残差块的
DCNN
结构,所述深度卷积神经网络用于提取出文本框的特征数据,所述
Bi

GRU
循环神经网络获取特征数据所对应的文字内容
。2.
根据权利要求1所述的基于端到端的通信大数据行程卡识别方法,其特征在于,所述提取文本框的特征数据的具体步骤如下所示:所述分离卷积块中各通道采用不同的卷积核对矫正后的文本进行特征提取,并对所述各通道卷积后的结果进行拼接,并作池化处理;采用残差块对分离卷积块的输入进行卷积操作,并将残差块的输出与池化处理后的结果相加,作为下一次分离卷积块的输入;当无残差块进行卷积操作时,将最后一个输出转换成一维向量处理,并采用全链接层卷积提取特征作为文本框的特征数据
。3.
根据权利要求2所述的基于端到端的通信大数据行程卡识别方法,其特征在于,其中,所述分离卷积中单通道的卷积核具体为3乘
1、1
乘3或者3乘
3、1

1。4.
根据权利要求1所述的基于端到端的通信大数据行程卡识别方法,其特征在于,所述
Bi

GRU
循环神经网络具体如下式所示:
y
t

σ
...

【专利技术属性】
技术研发人员:廖海峰董博林洪湖马杲灵
申请(专利权)人:云上数联贵州信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1