一种减少OCR模型参数的网络模型结构及方法技术

技术编号：37722422 阅读：20 留言：0更新日期：2023-06-02 00:23

本发明专利技术提供一种减少OCR模型参数的网络模型结构及方法，极大地降低了模型参数。所述OCR模型的网络结构架构包括：特征提取骨干卷积层CNNs，所述卷积层CNNs的输出是一个t维的特征向量T，还包括一个分类头，分类头的输出向量C；所述分类头的结构包括：设R1和R2是两个大小均为r维的向量，建议设置r＝2t；设T和R1,T和R2，R1和X,R2和Y之间由全连接组成；其中，X、Y的维度由网络输出向量C的维度c即字符的个数确定，维度大小设为m，把X看作m行1列的矩阵，Y看作1列m行矩阵，对XY做矩阵乘法，得到矩阵M，最后将M一维展开得到输出向量C。M一维展开得到输出向量C。M一维展开得到输出向量C。

全部详细技术资料下载

【技术实现步骤摘要】
一种减少OCR模型参数的网络模型结构及方法

[0001]本专利技术涉及智能视频处理
，特别涉及一种减少OCR模型参数的网络模型结构及方法。

技术介绍

[0002]在中英文OCR识别中，需要识别的字符大约有6000个。使用神经网络对这些字符分类除了需要使用卷积层提取字符特征外，还需要一个由全连接层组成的分类头。这个分类头的输出是一个等同于字符个数的向量，这就导致输出头的参数量很大。
[0003]现有识别模型使用的全连接分类头的参数量十分庞大，对移动端的部署不友好。而且对维度较小的特征向量使用大量的参数去拟合，很可能会出现过拟合，降低了模型的泛化性能。
[0004]另外，现有技术中的常用术语如下：
[0005]OCR(optical character recognition，光学字符识别)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。目前常用的字符是使用神经网络对字符分类。
[0006]卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力。
[0007]全连接神经网络。全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的，需要消耗很大的内存空间。

技术实现思路

[0008]本申请设计了一种针...

【技术保护点】

【技术特征摘要】
1.一种减少OCR模型参数的网络模型结构，所述OCR模型的网络结构架构包括：特征提取骨干卷积层CNNs，所述卷积层CNNs的输出是一个t维的特征向量T，还包括一个分类头，分类头的输出向量C，其特征在于，所述分类头的结构包括：所述分类头是由向量R1、向量R2、向量X、向量Y组成；设R1和R2是两个大小均为r维的向量，建议设置r＝2t；设T和R1，T和R2，R1和X，R2和Y之间由全连接组成；其中，X、Y的维度由网络输出向量C的维度c即字符的个数确定，维度大小设为m，把X看作m行1列的矩阵，Y看作1列m行矩阵，对XY做矩阵乘法，得到矩阵M，最后将M一维展开得到输出向量C。2.根据权利要求1所述的一种减少OCR模型参数的网络结构，其特征在于，所述m的计算公式如下：其中ceil()函数表示向上取整。3.根据权利要求1所述的一种减少OCR模型参数的网络结构，其特征在于，所述X、Y、M分别表示为：X＝[a
11
；a
21
；a
ij
；a
m1
]Y＝[b
11
，b
12
，b
ij
，b
1m
]M＝XY；M的大小为m*m，第i行第j列的值计算如下：M
ij
＝a
i1
b
1j
+a
i2
b
2j
+
…
+a
im
b
1m
(i≤m，j≤m)，其中，向量X、Y看作只有一行或一列的矩阵，a，b表示向量中的值。4.一种减少OCR模型参数的方法，其特征在于，所述方法包括：S1，设OCR模型网络架构中特征提取骨干卷积层CNNs的输出是一个t维的特征向量T，之后T作为分类头的输入；S2，设所述分类头由向量R1、向量R2、向量X...

【专利技术属性】
技术研发人员：朱贺辉，
申请(专利权)人：北京君正集成电路股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人