一种文本识别方法及装置制造方法及图纸

技术编号：28943262 阅读：13 留言：0更新日期：2021-06-18 21:51

本发明专利技术公开了一种文本识别方法，包括：获取待识别图片；将所述待识别图片输入到改进型CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括CNN模块、RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；输出所述文本识别结果。本发明专利技术实现了提高自然场景文本的识别精度的技术效果，同时，本发明专利技术还公开了一种文本识别装置和计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法及装置
本专利技术涉及文本识别
，尤其涉及一种文本识别方法及装置。
技术介绍
文本识别，简称为OCR识别(OpticalCharacterRecognition，光学字符识别)，是OCR应用中的一个重要环节，所要完成的任务是在文字检测的基础上，识别出检测到文本行图像中的文字内容，便于后续应用对文本的理解和相对应的需求。传统的OCR识别一般包含文本检测、单字符分割、单字符识别、后处理等一些复杂步骤，其对自然场景文本图像识别效果很不理想。目前，基于深度学习应用比较主流的文本识别框架是CRNN(ConvolutionalRecurrentNeuralNetwork，卷积循环神经网络)，其结构是由CNN(ConvolutionalNeuralNetwork，卷积神经网络)、RNN(RecurrentNeuralNetwork，循环神经网络)、CTC(ConnectionistTemporalClassification，连接性时序分类)三个模块组成。虽然标准的CRNN网络结构在自然场景文本识别中相比较传统OCR算法在识别效果方面有了很大的提升，但是由于自然场景文本图像的复杂性，导致标准CRNN网络结构针对自然场景文本图像识别精度方面，仍存在不足之处，识别精度低，无法更好地满足应用的需求。
技术实现思路
本专利技术实施例通过提供一种文本识别方法及装置，解决了现有技术中，在对自然场景文本进行识别时，存在识别精度低的技术问题，实现了提高自然场景文本的识别精度的技术效果。r>第一方面，本专利技术通过本专利技术的一实施例提供如下技术方案：一种文本识别方法，包括：获取待识别图片；将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；输出所述文本识别结果。优选地，所述RNN模块为双向多层的LSTM结构，所述LSTM结构中设置有残差结构，并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地，所述LSTM网络中设置有投影Projection网络，所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地，在所述RNN模块和所述CTC模块之间设置有通道合并网络，所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。基于同一专利技术构思，第二方面，本专利技术通过本专利技术的一实施例，提供如下技术方案：一种文本识别装置，包括：获取单元，用于获取待识别图片；输入单元，用于将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；输出单元，用于输出所述文本识别结果。优选地，所述RNN模块为双向多层的LSTM结构，所述LSTM结构中设置有残差结构，并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地，所述LSTM网络中设置有投影Projection网络，所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地，在所述RNN模块和所述CTC模块之间设置有通道合并网络，所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。基于同一专利技术构思，第三方面，本专利技术通过本专利技术的一实施例，提供如下技术方案：一种文本识别装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：获取待识别图片；将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；输出所述文本识别结果。优选地，所述RNN模块为双向多层的LSTM结构，所述LSTM结构中设置有残差结构，并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地，所述LSTM网络中设置有投影Projection网络，所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地，在所述RNN模块和所述CTC模块之间设置有通道合并网络，所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。基于同一专利技术构思，第四方面，本专利技术通过本专利技术的一实施例，提供如下技术方案：一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取待识别图片；将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；输出所述文本识别结果。优选地，所述RNN模块为双向多层的LSTM结构，所述LSTM结构中设置有残差结构，并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地，所述LSTM网络中设置有投影Projection网络，所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地，在所述RNN模块和所述CTC模块之间设置有通道合并网络，所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。本专利技术实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：在本专利技术实施例中，公开了一种文本识别方法，包括：获取待识别图片；将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；输出所述文本识别结果。由于在该改进型CRNN模型中，采用OctConv(八度卷积)结构代替了传统CRNN模型中的标准的卷积神经结构，如此，可以应对更为复杂的自然场景文本图像，解决了现有技术中，在对自然场景文本进行识别时，存在识别精度低的技术问题，实现本文档来自技高网...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：/n获取待识别图片；/n将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；/n输出所述文本识别结果。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：
获取待识别图片；
将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；
输出所述文本识别结果。

2.如权利要求1所述的方法，其特征在于，所述RNN模块为双向多层的LSTM结构，所述LSTM结构中设置有残差结构，并且所述LSTM结构中的隐藏单元的数量大于一预设值。

3.如权利要求2所述的方法，其特征在于，所述LSTM网络中设置有投影Projection网络，所述Projection网络用于降低所述LSTM网络中的参数的数量。

4.如权利要求2所述的方法，其特征在于，在所述RNN模块和所述CTC模块之间设置有通道合并网络，所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。

5.一种文本识别装置，其特征在于，包括：
获取单元，用于获取待识别图片；
输入单元，用于将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中，以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别，获得文本识别结果；其中，所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块，所述CNN模块、所述RNN模块和所述CTC模块依次连接，所述CNN模块为八度卷积OctConv结构；
输出单元，用于输出所述文本识别结果。

6.如权利要求5所述的装置，其特征...

【专利技术属性】
技术研发人员：许建中，徐露露，马龙，许静芳，
申请(专利权)人：搜狗杭州智能科技有限公司，北京搜狗科技发展有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人