一种基于3D卷积的OCR识别方法、装置、设备和介质制造方法及图纸

技术编号:28839952 阅读:14 留言:0更新日期:2021-06-11 23:38
本发明专利技术提供一种基于3D卷积的OCR识别方法、装置、设备和介质,方法包括:对于输入的图像进行常规预处理操作,并对不同文本行进行数据拼接,得到一个四维向量;从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息,其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取,该空间模型为3D卷积网络模型,所述时序潜层信息单独由时序模型提取;根据所述空间潜层信息和所述时序潜层信息,由嵌入层通过CTC进行多字符的分类,从而识别出图像上的所有字符并输出。本发明专利技术可以对整个图像的多个文本行进行一步式识别,还对不同文本行的互相关信息进行有效利用,大大提升了识别的效率和准确性。

【技术实现步骤摘要】
一种基于3D卷积的OCR识别方法、装置、设备和介质
本专利技术涉及计算机图像处理
,特别涉及一种OCR识别方法、装置、设备和介质。
技术介绍
OCR的概念是在1929年由德国科学家Tausheck最先提出来的。1986年,我国提出“863”高新科技研究计划,汉字识别的研究进入一个实质性的阶段,清华大学的丁晓青教授和中科院分别开发研究,相继推出了中文OCR产品,现为中国最领先汉字OCR技术。随着近年来我国信息自动化和人工智能的快速发展,推动了OCR技术的进一步发展。OCR识别说起来很复杂,简单的说就是利用各种算法分析文字形态特征,判断出具体汉字,并存储在文本文件中。所以说,OCR识别技术实际上是一种高效的输入方式,其可以应用在车牌识别、证件识别、银行卡识别等方面。一般的证件、票据识别过程分为两步,第一步是识别文字,第二步是把识别的文字通过结构化,提取想要的信息,最为常见的结构化方法是对文字通过正则化方式进行提取,如身份证上第一步识别出“姓名张三”,则“姓名”二字后跟的2-4个字符即为该身份证拥有者的姓名,在一张身份证上需要分别对姓名行、性别民族行、出生年月行、住址行、公民身份号码行进行相对应的结构化,该结构化不仅繁琐,同时对文字识别的准确率要求高,如果文字识别结果对单个字有偏差,如“姓名”的“名”识别成“各”,即使后面名字是准确的,通过正则化也很难提取得到后续的名字。就使用的神经网络模型而言,目前工业领域常用的光学字符识别方法中较常使用的是一种名为CRNN(ConvolutionalRecurrentNeuralNetwork)的基于神经网络模型,其包含卷积层、池化层、循环神经网络层等,可以提取图像的深层次信息,进行长文本的字符分类。但存在如下缺点:1、一次识别仅能识别一个文本行的内容,对于证件、票据等,其包含多个文本行,则需要进行多次文本行的输入,大大降低了识别效率;2、证件、票据等图像中,不同文本行也包含很多相关信息,如身份证出生年月和身份证号有明确联系。若输入仅为一个文本行的内容,则不同文本行的互相关信息就得不到利用,无法对识别结果进行佐证,因此识别准确性不高。本技术专利技术方案即是在这样的背景下提出的。
技术实现思路
本专利技术要解决的技术问题,在于提供一种基于3D卷积的OCR识别方法、装置、设备和介质,可以对整个图像的多个文本行进行一步式识别,还对不同文本行的互相关信息进行有效利用,大大提升了识别的效率和准确性。第一方面,本专利技术提供了一种基于3D卷积的OCR识别方法,包括下述步骤:S1、对于输入的图像进行常规预处理操作,并对不同文本行进行数据拼接,得到一个四维向量,所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽;S2、从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息,其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取,该空间模型为3D卷积网络模型,所述时序潜层信息单独由时序模型提取;S3、根据所述空间潜层信息和所述时序潜层信息,由嵌入层通过CTC进行多字符的分类,从而识别出图像上的所有字符,并结合所述文本行间互相关信息输出变长文本字符。第二方面,本专利技术提供了一种基于3D卷积的OCR识别装置,包括:预处理模块,用于对于输入的图像进行常规预处理操作,并对不同文本行进行数据拼接,得到一个四维向量,所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽;信息提取模块,包括空间模型和时序模型,用于从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息,其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取,该空间模型为3D卷积网络模型,所述时序潜层信息单独由时序模型提取;嵌入层,用于根据所述空间潜层信息和所述时序潜层信息,通过CTC进行多字符的分类,从而识别出图像上的所有字符,并结合所述文本行间互相关信息输出变长文本字符。第三方面,本专利技术提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。第四方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:对输入的图像进行常规预处理时,还对不同行的数据进行拼接处理,即可得到一个包含单张图像全部文本行的数据,从而可一次性将单张图像上所有文本行全部进行识别和输出,无需分步进行,不需要后续进行额外的结构化处理,其输出向量已经与各文本行一一对应,只需要简单的提取就能得到想要的文本信息,大大提高了效率;通过3D卷积网络模型进行空间潜层信息的提取,从而可其比2D卷积多了一维,用以同时提取不同文本行的互相关信息,可使识别更为准确。特别适用于版面固定的所有OCR识别中,包括证件识别、票据识别等,比原来常用的CRNN方法在固定版面的文字识别中更高效和准确。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明下面参照附图结合实施例对本专利技术作进一步的说明。图1为本专利技术实施例一中方法中的流程图;图2为本专利技术空间潜层信息和时序潜层信息的一种提取流程图;图3为本专利技术空间潜层信息和时序潜层信息的另一种提取流程图;图4为本专利技术实施例一中方法中的具体流程图;图5为本专利技术实施例二中装置的架构示意图;图6为本专利技术实施例二中装置的一种结构示意图;图7为本专利技术实施例二中装置的另一种结构示意图;图8为本专利技术实施例三中电子设备的结构示意图;图9为本专利技术实施例四中介质的结构示意图。具体实施方式本申请实施例通过提供一种基于3D卷积的OCR识别方法、装置、设备和介质,可以对整个图像的多个文本行进行一步式识别,无需后续的结构化处理,大大提升了识别效率。本申请实施例中的技术方案,总体思路如下:首先,在对输入的图像进行常规预处理时,还对不同行的数据进行拼接处理,即可得到一个包含单张图像全部文本行的数据,以便后续步骤中可一次性将单张图像上所有文本行全部进行识别和输出,且其输出向量与各文本行一一对应,大大提高了识别效率;在神经网络模型的设计上,采用3D卷积网络模型进行空间潜层信息的提取,比现有的2D卷积多了一维,从而可以同时提取不同文本行的互相关信息,根据互相关信息可使识别更为准确。实施例一如图2所示,本实施例提供一种基于3D卷积的OCR识别方法,包括下述步骤:S1、对于输入的图像进行常规预处理操作,灰度化、二值化、去噪、倾斜度矫正等,并对不同文本行进行数据拼接,得到一个四维向量,便于3D卷积网络的输入,所述四维向量中的四维分别表示图像颜色、文本行本文档来自技高网
...

【技术保护点】
1.一种基于3D卷积的OCR识别方法,其特征在于:包括下述步骤:/nS1、对于输入的图像进行常规预处理操作,并对不同文本行进行数据拼接,得到一个四维向量,所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽;/nS2、从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息,其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取,该空间模型为3D卷积网络模型,所述时序潜层信息单独由时序模型提取;/nS3、根据所述空间潜层信息和所述时序潜层信息,由嵌入层通过CTC进行多字符的分类,从而识别出图像上的所有字符,并结合所述文本行间互相关信息输出变长文本字符。/n

【技术特征摘要】
1.一种基于3D卷积的OCR识别方法,其特征在于:包括下述步骤:
S1、对于输入的图像进行常规预处理操作,并对不同文本行进行数据拼接,得到一个四维向量,所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽;
S2、从所述四维向量中提取空间潜层信息、文本行间互相关信息和时序潜层信息,其中所述空间潜层信息和所述文本行间互相关信息是由空间模型一并提取,该空间模型为3D卷积网络模型,所述时序潜层信息单独由时序模型提取;
S3、根据所述空间潜层信息和所述时序潜层信息,由嵌入层通过CTC进行多字符的分类,从而识别出图像上的所有字符,并结合所述文本行间互相关信息输出变长文本字符。


2.根据权利要求1所述的一种基于3D卷积的OCR识别方法,其特征在于:所述步骤S2中,所述3D卷积网络模型对的空间潜层信息、文本行间互相关信息提取与所述时序模型对所述时序潜层信息的提取同时进行,或先由所述3D卷积网络模型对的空间潜层信息、文本行间互相关信息进行提取后,再由所述时序模型对所述时序潜层信息进行提取。


3.根据权利要求1所述的一种基于3D卷积的OCR识别方法,其特征在于:所述3D卷积网络模型的构成如下:
第一层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为3*3*3,步长为1*1*1,填充为1*1*1,通道数为64,激活函数为ReLU;
第二层是3D池化层,用于向量维度的减小,核大小为1*2*2,步长为1*2*2,无填充;
第三层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为3*3*3,步长为1*1*1,填充为1*1*1,通道数为128;
第四层是3D池化层,用于向量维度的减小,核大小为1*2*2,步长为1*2*2,无填充;
第五层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为3*3*3,步长为1*1*1,填充为1*1*1,通道数为256;
第六层是批归一化层,用于数据的归一化;
第七层是ReLU激活函数层,用于使前一层3D卷积网络层的运算为非线性函数关系;
第八层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为3*3*3,步长为1*1*1,填充为1*1*1,通道数为256;
第九层是3D池化层,用于向量维度的减小,核大小为1*2*2,步长为1*2*1,填充为0*0*1;
第十层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为3*3*3,步长为1*1*1,填充为1*1*1,通道数为512;
第十一层是批归一化层,用于数据的归一化;
第十二层是ReLU激活函数层,用于使前一层3D卷积网络层的运算为非线性函数关系;
第十三层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为3*3*3,步长为1*1*1,填充为1*1*1,通道数为512;
第十四层是3D池化层,用于向量维度的减小,核大小为1*2*2,步长为1*2*1,填充为0*0*1;
第十五层是3D卷积层,用于提取图像的空间潜层信息和文本行间互相关信息,卷积核为1*2*2,步长为1*1*1,无填充,通道数为512;
第十六层是批归一化层,用于数据的归一化;
第十七层是ReLU激活函数层,用于使前一层3D卷积网络层的运算为非线性函数关系。


4.根据权利要求1所述的一种基于3D卷积的OCR识别方法,其特征在于:所述时序模型为LSTM网络模型,且构成如下:
第一层为双向LSTM层,节点数为256;
第二层为全连接层,节点数为256:
第三层为双向LSTM层,节点数为256:
第四层为全连接层,节点数为256。


5.一种基于3D卷积的OCR识别装置,其特征在于:包括:
预处理模块,用于对于输入的图像进行常规预处理操作,并对不同文本行进行数据拼接,得到一个四维向量,所述四维向量中的四维分别表示图像颜色、文本行数、图像长、图像宽;
信息提取模块,包括空间...

【专利技术属性】
技术研发人员:黄家昌管发乾杨辉邱道椿
申请(专利权)人:福建亿能达信息技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1