一种减少OCR模型参数的网络模型结构及方法技术

技术编号:37722422 阅读:20 留言:0更新日期:2023-06-02 00:23
本发明专利技术提供一种减少OCR模型参数的网络模型结构及方法,极大地降低了模型参数。所述OCR模型的网络结构架构包括:特征提取骨干卷积层CNNs,所述卷积层CNNs的输出是一个t维的特征向量T,还包括一个分类头,分类头的输出向量C;所述分类头的结构包括:设R1和R2是两个大小均为r维的向量,建议设置r=2t;设T和R1,T和R2,R1和X,R2和Y之间由全连接组成;其中,X、Y的维度由网络输出向量C的维度c即字符的个数确定,维度大小设为m,把X看作m行1列的矩阵,Y看作1列m行矩阵,对XY做矩阵乘法,得到矩阵M,最后将M一维展开得到输出向量C。M一维展开得到输出向量C。M一维展开得到输出向量C。

【技术实现步骤摘要】
一种减少OCR模型参数的网络模型结构及方法


[0001]本专利技术涉及智能视频处理
,特别涉及一种减少OCR模型参数的网络模型结构及方法。

技术介绍

[0002]在中英文OCR识别中,需要识别的字符大约有6000个。使用神经网络对这些字符分类除了需要使用卷积层提取字符特征外,还需要一个由全连接层组成的分类头。这个分类头的输出是一个等同于字符个数的向量,这就导致输出头的参数量很大。
[0003]现有识别模型使用的全连接分类头的参数量十分庞大,对移动端的部署不友好。而且对维度较小的特征向量使用大量的参数去拟合,很可能会出现过拟合,降低了模型的泛化性能。
[0004]另外,现有技术中的常用术语如下:
[0005]OCR(optical character recognition,光学字符识别)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。目前常用的字符是使用神经网络对字符分类。
[0006]卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力。
[0007]全连接神经网络。全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的,需要消耗很大的内存空间。

技术实现思路

[0008]本申请设计了一种针对OCR识别的网络结构,极大地降低了模型参数。
[0009]具体地,本专利技术提供一种减少OCR模型参数的网络模型结构,所述OCR模型的网络结构架构包括:特征提取骨干卷积层CNNs,所述卷积层CNNs的输出是一个t维的特征向量T,还包括一个分类头,分类头输出向量C;即整个OCR模型包括两部分,特征提取骨干+分类头。C是分类头的输出,T是特征提取骨干的输出。所述分类头的结构包括:所述分类头是由向量R1、向量R2、向量X、向量Y组成;
[0010]设R1和R2是两个大小均为r维的向量,建议设置r=2t;即R1和R2的大小是人为设置的,大小都是等分的,X和Y也是等分的,由C的大小计算出;
[0011]设T和R1,T和R2,R1和X,R2和Y之间由全连接组成;本申请改变了分类头的拓扑形式,由一层较大的全连接改成若干小的全连接层;
[0012]其中,X、Y的维度由网络输出向量C的维度c即字符的个数确定,维度大小设为m,把X看作m行1列的矩阵,Y看作1列m行矩阵,对XY做矩阵乘法,得到矩阵M,最后将M一维展开得到输出向量C。
[0013]所述m的计算公式如下:
[0014][0015]其中ceil()函数表示向上取整。
[0016]所述X、Y、M分别表示为:
[0017]X=[a
11
;a
21
;a
ij
;a
m1
][0018]Y=[b
11
,b
12
,b
ij
,b
1m
][0019]M=XY;
[0020]M的大小为m*m,第i行第j列的值计算如下:
[0021]M
ij
=a
i1
b
1j
+a
i2
b
2j
+...+a
im
b
1m
(i≤m,j≤m),
[0022]其中,向量X、Y看作只有一行或一列的矩阵,a,b表示向量中的值。
[0023]本申请还涉及一种减少OCR模型参数的方法,所述方法包括:
[0024]S1,设OCR模型网络架构中特征提取骨干卷积层CNNs的输出是一个t维的特征向量T,之后T作为分类头的输入;
[0025]S2,设所述分类头由向量R1、向量R2、向量X、向量Y组成;
[0026]设R1和R2是两个大小均为r维的向量,建议设置r=2t;
[0027]设T和R1,T和R2,R1和X,R2和Y之间由全连接组成;
[0028]其中,X、Y的维度由网络输出向量C的维度c即字符的个数确定,X和Y是两个维度大小均为m维的向量,对XY做矩阵乘法,得到矩阵M;S3,最后将M一维展开得到输出向量C。
[0029]所述步骤S2中,所述m的计算公式如下:
[0030][0031]其中ceil()函数表示向上取整。
[0032]所述步骤S2中,把X看作m行1列的矩阵,Y看作1列m行矩阵,对XY做矩阵乘法,得到矩阵M:
[0033]X=[a
11
;a
21
;a
ij
;a
m1
][0034]Y=[b
11
,b
12
,b
ij
,b
1m
][0035]M=XY
[0036]M的大小为m*m,第i行第j列的值计算如下:
[0037]M
ij
=a
i1
b
1j
+a
i2
b
2j
+...+a
im
b
1m
(i≤m,j≤m),
[0038]其中,向量X、Y看作只有一行或一列的矩阵,a,b表示向量中的值。
[0039]所述步骤S3中,所述分类头最大分类个数为m2。
[0040]所述方法中,由于X与Y的计算过程中没有引入新的参数,所以所述分类头的总参数N2由T与R1、T与R2、R1与X、R2与Y之间的全连接权重参数量决定,表示如下:
[0041]N2=t*2t+t*2t+2t*m+2t*m=4t*(t+m)。
[0042]由此,本申请的优势在于:本申请对OCR识别模型做了改进,在不明显降低精度的前提下,减小了模型分类头的参数量和计算量。实际上在传统分类网络下,分类头只有一层组成,本申请改变了分类头的拓扑形式,由一层较大的全连接改成若干小的全连接层,从而减少了OCR模型参数。
附图说明
[0043]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。
[0044]图1是本申请涉及现有技术中的示意图。
[0045]图2是本申请中实施例中改进后的示意图。
[0046]图3是本申请中涉及的全连接层的输入节点和输出节点连接示意图。
[0047]图4是本申请中涉及的方法的流程示意图。
具体实施方式
[0048]为了能够更清楚地理解本专利技术的
技术实现思路
及优点,现结合附图对本专利技术进行进一步的详细说明。
[0049]如图1所示,是现有技术中比较常见的OCR模型网络架构,由特征提取骨干卷积层CNNs和分类头全连接层fc组成。卷积层CNNs的输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种减少OCR模型参数的网络模型结构,所述OCR模型的网络结构架构包括:特征提取骨干卷积层CNNs,所述卷积层CNNs的输出是一个t维的特征向量T,还包括一个分类头,分类头的输出向量C,其特征在于,所述分类头的结构包括:所述分类头是由向量R1、向量R2、向量X、向量Y组成;设R1和R2是两个大小均为r维的向量,建议设置r=2t;设T和R1,T和R2,R1和X,R2和Y之间由全连接组成;其中,X、Y的维度由网络输出向量C的维度c即字符的个数确定,维度大小设为m,把X看作m行1列的矩阵,Y看作1列m行矩阵,对XY做矩阵乘法,得到矩阵M,最后将M一维展开得到输出向量C。2.根据权利要求1所述的一种减少OCR模型参数的网络结构,其特征在于,所述m的计算公式如下:其中ceil()函数表示向上取整。3.根据权利要求1所述的一种减少OCR模型参数的网络结构,其特征在于,所述X、Y、M分别表示为:X=[a
11
;a
21
;a
ij
;a
m1
]Y=[b
11
,b
12
,b
ij
,b
1m
]M=XY;M的大小为m*m,第i行第j列的值计算如下:M
ij
=a
i1
b
1j
+a
i2
b
2j
+

+a
im
b
1m
(i≤m,j≤m),其中,向量X、Y看作只有一行或一列的矩阵,a,b表示向量中的值。4.一种减少OCR模型参数的方法,其特征在于,所述方法包括:S1,设OCR模型网络架构中特征提取骨干卷积层CNNs的输出是一个t维的特征向量T,之后T作为分类头的输入;S2,设所述分类头由向量R1、向量R2、向量X...

【专利技术属性】
技术研发人员:朱贺辉
申请(专利权)人:北京君正集成电路股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1