基于CTC深度神经网络的文字分割和识别的方法技术

技术编号:25186728 阅读:52 留言:0更新日期:2020-08-07 21:14
本发明专利技术提供了一种基于CTC深度神经网络的文字分割和识别的方法,包括如下步骤:a1.对输入图像利用CNN提取特征;a2.对a1提取的特征进行CELL切分,CELL的高宽固定,个数由图像长度确定;a3.对确定好的特征每个CELL直接分割分类,输出分割信号;a4.利用CTCLOSS计算真实分割信号与模型输出的分割信号之间的损失,损失情况反馈并训练整个模型;a5.利用a3输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别,真实分割信号由标注文本映射而来,CTCLOSS可自动解决文本对齐问题。本发明专利技术提升了OCR识别的速度,且切成单个字符后其识别优化具有针对性,使得最终精度提高;对识别框架进行改进,将识别过程分离为字符分割、单字符识别,使得优化可以分开的、具有针对性的进行。

【技术实现步骤摘要】
基于CTC深度神经网络的文字分割和识别的方法
本专利技术涉及文字分割和识别
,具体来说,涉及一种基于CTC深度神经网络的文字分割和识别的方法。
技术介绍
OCR(OpticalCharacterRecognition光学字符识别)是一项对图像文字进行检测识别以及结构化的图像处理技术。目前的OCR技术,分为检测、识别、结构化三个模块;检测与识别,有两种框架,分别为:1.单字符检测+单字符识别框架,具体表述为检测模块的核心任务为检测图像每个独立字符区域;识别模块负责对每个被裁剪出来的字符区域图像,进行文字识别,现有的识别模型基本框架为:CNN+softmax;2.文本行检测+整行识别框架,具体表述为检测模块的核心任务为检测图像中的文本区域;识别模块负责对裁剪出来的文本区域图像进行文本识别,现有的识别模型基本框架为:CNN+LSTM+CTC。目前通用的是上述第2种框架,其方案细节为文本行检测技术,主要基于的是目前发展较好的深度卷积神经网络进行检测,对较为成熟的FasterRCNN框架进行改良,该框架的基础版本对于较大的物体有比较高的准确本文档来自技高网...

【技术保护点】
1.基于CTC深度神经网络的文字分割和识别的方法,其特征在于,包括如下步骤:/na1.对输入图像利用CNN提取特征;/na2.对步骤(a1)提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;/na3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;/na4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;/na5.利用步骤(a3)输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。/n

【技术特征摘要】
1.基于CTC深度神经网络的文字分割和识别的方法,其特征在于,包括如下步骤:
a1.对输入图像利用CNN提取特征;
a2.对步骤(a1)提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;
a3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;
a4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;
a5.利用步骤(a3)输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。


2.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法,其特征在于,所述真实分割信号由标注文本映射而来。


3.根据...

【专利技术属性】
技术研发人员:侯进黄贤俊
申请(专利权)人:深源恒际科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1