【技术实现步骤摘要】
基于CTC深度神经网络的文字分割和识别的方法
本专利技术涉及文字分割和识别
,具体来说,涉及一种基于CTC深度神经网络的文字分割和识别的方法。
技术介绍
OCR(OpticalCharacterRecognition光学字符识别)是一项对图像文字进行检测识别以及结构化的图像处理技术。目前的OCR技术,分为检测、识别、结构化三个模块;检测与识别,有两种框架,分别为:1.单字符检测+单字符识别框架,具体表述为检测模块的核心任务为检测图像每个独立字符区域;识别模块负责对每个被裁剪出来的字符区域图像,进行文字识别,现有的识别模型基本框架为:CNN+softmax;2.文本行检测+整行识别框架,具体表述为检测模块的核心任务为检测图像中的文本区域;识别模块负责对裁剪出来的文本区域图像进行文本识别,现有的识别模型基本框架为:CNN+LSTM+CTC。目前通用的是上述第2种框架,其方案细节为文本行检测技术,主要基于的是目前发展较好的深度卷积神经网络进行检测,对较为成熟的FasterRCNN框架进行改良,该框架的基础版本对于较大 ...
【技术保护点】
1.基于CTC深度神经网络的文字分割和识别的方法,其特征在于,包括如下步骤:/na1.对输入图像利用CNN提取特征;/na2.对步骤(a1)提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;/na3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;/na4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;/na5.利用步骤(a3)输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。/n
【技术特征摘要】
1.基于CTC深度神经网络的文字分割和识别的方法,其特征在于,包括如下步骤:
a1.对输入图像利用CNN提取特征;
a2.对步骤(a1)提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;
a3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;
a4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;
a5.利用步骤(a3)输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。
2.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法,其特征在于,所述真实分割信号由标注文本映射而来。
3.根据...
【专利技术属性】
技术研发人员:侯进,黄贤俊,
申请(专利权)人:深源恒际科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。