一种多语言场景字符识别方法及系统技术方案

技术编号:21479141 阅读:47 留言:0更新日期:2019-06-29 05:08
本发明专利技术公开了一种多语言场景字符识别模型及方法,所述模型包括:图像获取处理单元,用于获取待文字识别图像,对待文字识别图像处理成灰度图像;特征图获取单元,用于利用卷积神经网络对所述待文字识别图像的灰度图像进行处理,获得该图像的特征图;滑动窗口处理单元,用于将所述特征图获取单元获取的特征图进行处理,获得批量的固定大小的方块;文字类别分类单元,用于利用FC分类层对经过所述滑动窗口处理单元处理的方块进行分类,以对进行文字的粗分类;文字解析单元,用于根据分类结果选择相应的内容解析器,并利用bi‑lstm与attention网络以共同实现内容解析,通过本发明专利技术,可实现多语言场景文字的识别。

【技术实现步骤摘要】
一种多语言场景字符识别方法及系统
本专利技术涉及机器视觉领域中的文本图像识别
,特别是涉及一种端到端的多语言场景字符识别方法及系统。
技术介绍
文字作为一种人类设计的符号,表达了高层的信息,对理解图像中的内容有着重要的帮助。因此,文字的自动检测识别引起了人们的高度关注,它对于图像和视频的存储、分类、理解及检索等来说具有及其重要的意义,有着广泛的应用前景和商业价值。然而,由于自然场景照中字符受到复杂背景、不均匀光照、低分辨率、多样字体、不同颜色等因素的影响,直接使用传统的光学字符识别(OCR)技术,识别效果不能令人满意。因此,真实场景中文字识别方法具有很强的研究必要。随着研究的深入发展,目前对于文字的识别一般都通过训练模型来实现,这种方法针对较为整齐的文字区域,文字检测技术在使用上问题不大,但是一旦涉及多种语言文字的文字识别,例如超过两百种语言文字的文字识别,如图1所示,不同的书写方式,千差万别的结构、顺序,则给文字识别带来了重重阻碍,这种情况下针对每一种文字都训练一种模型显然很不合理,而同时如果把所有语言的所有类别都融合起来,那么分类的类别会变得无比庞大,分类的性能必然会受到影本文档来自技高网...

【技术保护点】
1.一种多语言场景字符识别模型,包括:图像获取处理单元,用于获取待文字识别图像,对待文字识别图像处理成灰度图像;特征图获取单元,用于利用卷积神经网络对所述待文字识别图像的灰度图像进行处理,获得该图像的特征图;滑动窗口处理单元,用于将所述特征图获取单元获取的特征图进行处理,获得批量的固定大小的方块;文字类别分类单元,用于利用FC分类层对经过所述滑动窗口处理单元处理的方块进行分类,以对进行文字的粗分类;文字解析单元,用于根据分类结果选择相应的内容解析器,并利用bi‑lstm与attention网络以共同实现内容解析。

【技术特征摘要】
1.一种多语言场景字符识别模型,包括:图像获取处理单元,用于获取待文字识别图像,对待文字识别图像处理成灰度图像;特征图获取单元,用于利用卷积神经网络对所述待文字识别图像的灰度图像进行处理,获得该图像的特征图;滑动窗口处理单元,用于将所述特征图获取单元获取的特征图进行处理,获得批量的固定大小的方块;文字类别分类单元,用于利用FC分类层对经过所述滑动窗口处理单元处理的方块进行分类,以对进行文字的粗分类;文字解析单元,用于根据分类结果选择相应的内容解析器,并利用bi-lstm与attention网络以共同实现内容解析。2.如权利要求1所述的一种多语言场景字符识别模型,其特征在于:所述卷积神经网络采用将SE模块嵌入到Resnet50神经网络的SENet-Resnet50神经网络。3.如权利要求1所述的一种多语言场景字符识别模型,其特征在于:所述滑动窗口处理单元将获取的特征图经过滑动窗口获得批量的固定大小的方块。4.如权利要求1所述的一种多语言场景字符识别模型,其特征在于:所述文字解析单元采用bi-lstm与attention网络,其后跟随对应文字的内容解析器,并使用CTC-attention损失函数进行梯度的反向传播,从而实现内容的解析。5.如权利要求1所述的一种多语言场景字符识别模型,其特征在于,所述模型还包括:网络优化单元,用于利用CTC-attention与softmax函数结合作为优化损失函数训练整个模型的网络结构。6.一种多语言场景字符识别方法,包括如下步骤:步骤S1,构建多语言场景字符识别模型,并通过获取多个样本图像对模型进行训练;步骤S2,获取待文字识别图像,对待文字识别图像处理...

【专利技术属性】
技术研发人员:刘树春陈明曦彭垚谢雨飞吕桂华林亦宁
申请(专利权)人:上海七牛信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1