一种文本识别方法及装置制造方法及图纸

技术编号:28943262 阅读:13 留言:0更新日期:2021-06-18 21:51
本发明专利技术公开了一种文本识别方法,包括:获取待识别图片;将所述待识别图片输入到改进型CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括CNN模块、RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;输出所述文本识别结果。本发明专利技术实现了提高自然场景文本的识别精度的技术效果,同时,本发明专利技术还公开了一种文本识别装置和计算机可读存储介质。

【技术实现步骤摘要】
一种文本识别方法及装置
本专利技术涉及文本识别
,尤其涉及一种文本识别方法及装置。
技术介绍
文本识别,简称为OCR识别(OpticalCharacterRecognition,光学字符识别),是OCR应用中的一个重要环节,所要完成的任务是在文字检测的基础上,识别出检测到文本行图像中的文字内容,便于后续应用对文本的理解和相对应的需求。传统的OCR识别一般包含文本检测、单字符分割、单字符识别、后处理等一些复杂步骤,其对自然场景文本图像识别效果很不理想。目前,基于深度学习应用比较主流的文本识别框架是CRNN(ConvolutionalRecurrentNeuralNetwork,卷积循环神经网络),其结构是由CNN(ConvolutionalNeuralNetwork,卷积神经网络)、RNN(RecurrentNeuralNetwork,循环神经网络)、CTC(ConnectionistTemporalClassification,连接性时序分类)三个模块组成。虽然标准的CRNN网络结构在自然场景文本识别中相比较传统OCR算法在识别效果方面有了很大的提升,但是由于自然场景文本图像的复杂性,导致标准CRNN网络结构针对自然场景文本图像识别精度方面,仍存在不足之处,识别精度低,无法更好地满足应用的需求。
技术实现思路
本专利技术实施例通过提供一种文本识别方法及装置,解决了现有技术中,在对自然场景文本进行识别时,存在识别精度低的技术问题,实现了提高自然场景文本的识别精度的技术效果。r>第一方面,本专利技术通过本专利技术的一实施例提供如下技术方案:一种文本识别方法,包括:获取待识别图片;将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;输出所述文本识别结果。优选地,所述RNN模块为双向多层的LSTM结构,所述LSTM结构中设置有残差结构,并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地,所述LSTM网络中设置有投影Projection网络,所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地,在所述RNN模块和所述CTC模块之间设置有通道合并网络,所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。基于同一专利技术构思,第二方面,本专利技术通过本专利技术的一实施例,提供如下技术方案:一种文本识别装置,包括:获取单元,用于获取待识别图片;输入单元,用于将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;输出单元,用于输出所述文本识别结果。优选地,所述RNN模块为双向多层的LSTM结构,所述LSTM结构中设置有残差结构,并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地,所述LSTM网络中设置有投影Projection网络,所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地,在所述RNN模块和所述CTC模块之间设置有通道合并网络,所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。基于同一专利技术构思,第三方面,本专利技术通过本专利技术的一实施例,提供如下技术方案:一种文本识别装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:获取待识别图片;将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;输出所述文本识别结果。优选地,所述RNN模块为双向多层的LSTM结构,所述LSTM结构中设置有残差结构,并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地,所述LSTM网络中设置有投影Projection网络,所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地,在所述RNN模块和所述CTC模块之间设置有通道合并网络,所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。基于同一专利技术构思,第四方面,本专利技术通过本专利技术的一实施例,提供如下技术方案:一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待识别图片;将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;输出所述文本识别结果。优选地,所述RNN模块为双向多层的LSTM结构,所述LSTM结构中设置有残差结构,并且所述LSTM结构中的隐藏单元的数量大于一预设值。优选地,所述LSTM网络中设置有投影Projection网络,所述Projection网络用于降低所述LSTM网络中的参数的数量。优选地,在所述RNN模块和所述CTC模块之间设置有通道合并网络,所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:在本专利技术实施例中,公开了一种文本识别方法,包括:获取待识别图片;将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;输出所述文本识别结果。由于在该改进型CRNN模型中,采用OctConv(八度卷积)结构代替了传统CRNN模型中的标准的卷积神经结构,如此,可以应对更为复杂的自然场景文本图像,解决了现有技术中,在对自然场景文本进行识别时,存在识别精度低的技术问题,实现本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n获取待识别图片;/n将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;/n输出所述文本识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
获取待识别图片;
将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;
输出所述文本识别结果。


2.如权利要求1所述的方法,其特征在于,所述RNN模块为双向多层的LSTM结构,所述LSTM结构中设置有残差结构,并且所述LSTM结构中的隐藏单元的数量大于一预设值。


3.如权利要求2所述的方法,其特征在于,所述LSTM网络中设置有投影Projection网络,所述Projection网络用于降低所述LSTM网络中的参数的数量。


4.如权利要求2所述的方法,其特征在于,在所述RNN模块和所述CTC模块之间设置有通道合并网络,所述通道合并网络用于将所述RNN模块的用于输出特征序列的通道进行合并处理。


5.一种文本识别装置,其特征在于,包括:
获取单元,用于获取待识别图片;
输入单元,用于将所述待识别图片输入到改进型卷积循环神经网络CRNN模型中,以使得所述改进型CRNN模型对所述待识别图片中的文本进行识别,获得文本识别结果;其中,所述改进型CRNN模型包括卷积神经网络CNN模块、循环神经网络RNN模块和CTC模块,所述CNN模块、所述RNN模块和所述CTC模块依次连接,所述CNN模块为八度卷积OctConv结构;
输出单元,用于输出所述文本识别结果。


6.如权利要求5所述的装置,其特征...

【专利技术属性】
技术研发人员:许建中徐露露马龙许静芳
申请(专利权)人:搜狗杭州智能科技有限公司北京搜狗科技发展有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1