一种基于3D卷积的OCR识别方法、装置、设备和介质制造方法及图纸

技术编号：28839952 阅读：14 留言：0更新日期：2021-06-11 23:38

本发明专利技术提供一种基于3D卷积的OCR识别方法、装置、设备和介质，方法包括：对于输入的图像进行常规预处理操作，并对不同文本行进行数据拼接，得到一个四维向量；从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息，其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取，该空间模型为3D卷积网络模型，所述时序潜层信息单独由时序模型提取；根据所述空间潜层信息和所述时序潜层信息，由嵌入层通过CTC进行多字符的分类，从而识别出图像上的所有字符并输出。本发明专利技术可以对整个图像的多个文本行进行一步式识别，还对不同文本行的互相关信息进行有效利用，大大提升了识别的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于3D卷积的OCR识别方法、装置、设备和介质
本专利技术涉及计算机图像处理
，特别涉及一种OCR识别方法、装置、设备和介质。
技术介绍
OCR的概念是在1929年由德国科学家Tausheck最先提出来的。1986年，我国提出“863”高新科技研究计划，汉字识别的研究进入一个实质性的阶段，清华大学的丁晓青教授和中科院分别开发研究，相继推出了中文OCR产品，现为中国最领先汉字OCR技术。随着近年来我国信息自动化和人工智能的快速发展，推动了OCR技术的进一步发展。OCR识别说起来很复杂，简单的说就是利用各种算法分析文字形态特征，判断出具体汉字，并存储在文本文件中。所以说，OCR识别技术实际上是一种高效的输入方式，其可以应用在车牌识别、证件识别、银行卡识别等方面。一般的证件、票据识别过程分为两步，第一步是识别文字，第二步是把识别的文字通过结构化，提取想要的信息，最为常见的结构化方法是对文字通过正则化方式进行提取，如身份证上第一步识别出“姓名张三”，则“姓名”二字后跟的2-4个字符即为该身份证拥有者的姓名，在一张身份证上需要分别对姓名行、性别民族行、出生年月行、住址行、公民身份号码行进行相对应的结构化，该结构化不仅繁琐，同时对文字识别的准确率要求高，如果文字识别结果对单个字有偏差，如“姓名”的“名”识别成“各”，即使后面名字是准确的，通过正则化也很难提取得到后续的名字。就使用的神经网络模型而言，目前工业领域常用的光学字符识别方法中较常使用的是一种名为CRNN(ConvolutionalRec...

【技术保护点】
1.一种基于3D卷积的OCR识别方法，其特征在于：包括下述步骤：/nS1、对于输入的图像进行常规预处理操作，并对不同文本行进行数据拼接，得到一个四维向量，所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽；/nS2、从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息，其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取，该空间模型为3D卷积网络模型，所述时序潜层信息单独由时序模型提取；/nS3、根据所述空间潜层信息和所述时序潜层信息，由嵌入层通过CTC进行多字符的分类，从而识别出图像上的所有字符，并结合所述文本行间互相关信息输出变长文本字符。/n

【技术特征摘要】
1.一种基于3D卷积的OCR识别方法，其特征在于：包括下述步骤：
S1、对于输入的图像进行常规预处理操作，并对不同文本行进行数据拼接，得到一个四维向量，所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽；
S2、从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息，其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取，该空间模型为3D卷积网络模型，所述时序潜层信息单独由时序模型提取；
S3、根据所述空间潜层信息和所述时序潜层信息，由嵌入层通过CTC进行多字符的分类，从而识别出图像上的所有字符，并结合所述文本行间互相关信息输出变长文本字符。

2.根据权利要求1所述的一种基于3D卷积的OCR识别方法，其特征在于：所述步骤S2中，所述3D卷积网络模型对的空间潜层信息、文本行间互相关信息提取与所述时序模型对所述时序潜层信息的提取同时进行，或先由所述3D卷积网络模型对的空间潜层信息、文本行间互相关信息进行提取后，再由所述时序模型对所述时序潜层信息进行提取。

3.根据权利要求1所述的一种基于3D卷积的OCR识别方法，其特征在于：所述3D卷积网络模型的构成如下：
第一层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为3*3*3，步长为1*1*1，填充为1*1*1，通道数为64，激活函数为ReLU；
第二层是3D池化层，用于向量维度的减小，核大小为1*2*2，步长为1*2*2，无填充；
第三层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为3*3*3，步长为1*1*1，填充为1*1*1，通道数为128；
第四层是3D池化层，用于向量维度的减小，核大小为1*2*2，步长为1*2*2，无填充；
第五层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为3*3*3，步长为1*1*1，填充为1*1*1，通道数为256；
第六层是批归一化层，用于数据的归一化；
第七层是ReLU激活函数层，用于使前一层3D卷积网络层的运算为非线性函数关系；
第八层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为3*3*3，步长为1*1*1，填充为1*1*1，通道数为256；
第九层是3D池化层，用于向量维度的减小，核大小为1*2*2，步长为1*2*1，填充为0*0*1；
第十层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为3*3*3，步长为1*1*1，填充为1*1*1，通道数为512；
第十一层是批归一化层，用于数据的归一化；
第十二层是ReLU激活函数层，用于使前一层3D卷积网络层的运算为非线性函数关系；
第十三层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为3*3*3，步长为1*1*1，填充为1*1*1，通道数为512；
第十四层是3D池化层，用于向量维度的减小，核大小为1*2*2，步长为1*2*1，填充为0*0*1；
第十五层是3D卷积层，用于提取图像的空间潜层信息和文本行间互相关信息，卷积核为1*2*2，步长为1*1*1，无填充，通道数为512；
第十六层是批归一化层，用于数据的归一化；
第十七层是ReLU激活函数层，用于使前一层3D卷积网络层的运算为非线性函数关系。

4.根据权利要求1所述的一种基于3D卷积的OCR识别方法，其特征在于：所述时序模型为LSTM网络模型，且构成如下：
第一层为双向LSTM层，节点数为256；
第二层为全连接层，节点数为256：
第三层为双向LSTM层，节点数为256：
第四层为全连接层，节点数为256。

5.一种基于3D卷积的OCR识别装置，其特征在于：包括：
预处理模块，用于对于输入的图像进行常规预处理操作，并对不同文本行进行数据拼接，得到一个四维向量，所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽；
信息提取模块，包括空间...

【专利技术属性】
技术研发人员：黄家昌，管发乾，杨辉，邱道椿，
申请(专利权)人：福建亿能达信息技术股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人