一种多场景多字体中文文字检测识别方法技术

技术编号:22689398 阅读:20 留言:0更新日期:2019-11-30 03:50
本发明专利技术公开了一种多场景多字体中文文字检测识别方法,本发明专利技术采用EAST和CRNN深度学习网络,根据图像数据的尺度,方向进行分类训练EAST文字定位网络模型和CRNN文字识别网络模型,通过两种网络结合,对多场景下多种中文文字检测识别,取得了理想的效果。一方面该检测方法能提高多场景下文字识别及录入的工作效率,大大降低人力成本;另一方面,在全球化、电子化的今天,利用多场景下多种中文文字的检测识别方法及系统,能实时、准确、自动地识别出非楷书书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。

A multi scene and multi font Chinese character detection and recognition method

The invention discloses a multi scene and multi font Chinese character detection and recognition method, which adopts East and crnn deep learning network, classifies and trains East character positioning network model and crnn character recognition network model according to the scale and direction of image data, and combines the two networks to detect and recognize a variety of Chinese characters in multi scene, achieving ideal effect. On the one hand, this detection method can improve the work efficiency of character recognition and input in multi scenes, and greatly reduce the labor cost; on the other hand, in today's globalized and electronic era, using the detection and recognition methods and systems of multiple Chinese characters in multi scenes, it can identify non regular script calligraphy characters in real-time, accurately and automatically. For recording, sorting out calligraphy art and spreading calligraphy behind Chinese culture has important social value.

【技术实现步骤摘要】
一种多场景多字体中文文字检测识别方法
本专利技术涉及深度学习领域,涉及一种多场景多字体中文文字检测识别方法。
技术介绍
数字图像的使用和获取在当今时代随着手持照相机和智能手机的普及变得更加的轻松容易,图像中往往包含着大量的文字信息,例如出现在建筑物的标识、路标.车牌以及路边的公告、广告牌中。拍摄这些图像的手持设备本身或者拍摄场景的限制,包含这些文字的图像分辨率可能很低,或者可能因拍摄时的强光照射,图像会有一定的模糊。这些因素会使目前的文字识别技术的准确度大大下降。书法文字是中华文明历经漫长岁月留下的艺术精华,在博物馆里的字画作品、旅游景点里的碑刻、建筑上的题词、对联、牌匾、甚至寻常家居里也会悬挂带有书法艺术的字画,但是由于古代书法字体越来越难以识别,一些由这些书法文字承载的传统文化无法顺利传承。在全球化、电子化的今天,利用先进的技术,实时、准确、自动地识别出这些书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。利用人工智能技术,现在的中文识别已经有了很大的突破和极高的准确率。但是对于各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果还不是很好。自然场景文字是图像高层语义的一种重要载体,近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。文本检测作为文本识别、机器翻译等后续过程的前提条件,其核心是区分文本和背景。传统方法使用手动设计特征以获得文本属性,而现在基于深度学习直接从训练数据中学习有效特征,可获得更加鲁棒的高级特征。
技术实现思路
本专利技术所要解决的技术问题是克服现有文字识别的技术不足,提供了一种多场景多字体中文文字检测识别方法。为解决以上技术问题,本专利技术应用系统开发方法包括如下步骤:步骤一:准备数据集,标签包括文字图片的区域位置、区域文字信息,数据集采用ICDAR2015比赛公共数据集和DCIC2019汉字书法多场景识别大赛的比赛公共数据集。步骤二:为解决多场景下色彩不均衡导致定位精度偏差较大的问题,我们使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理。步骤三:由于在统一网络训练中数据的规格时,不同尺度和不同方向的图片里的待检测内容会有较大差异,所以在训练时我们对不同尺度和不同方向的数据做了分类,以便之后分类训练使用。步骤四:根据步骤三中的分类数据集,使用深度神经网络RSTD训练出三个不同的模型,并对模型进行评估。每个模型的输入是一张图片,输出是检测出的文字四边形区域坐标:以原图左上角为零点,X1、Y1为文本框左上角坐标,X2、Y2为文本框右上角坐标,X3、Y3为文本框右下角坐标,X4、Y4为文本框左下角坐标。步骤五:根据训练时文字定位label(文字四边形区域坐标)对图片进行裁剪,同时使用图像锐化算法以30%概率随机处理数据图像。若裁剪图像中文字为纵向排列,则对图像行逆时针90°旋转操作。步骤六:根据步骤五的分类数据集,使用深度神经网络CRNN训练出两个不同的横纵文字识别模型,并对模型进行评估。输入内容为文字定位区域,输出内容为对应文字信息。步骤七:对于待识别图片,首先按照不同方向和尺度对图像进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正。步骤八:对于校正后图像,根据类别调用文字识别模型,识别出对应的文字信息,并返回识别信息。同时,为了解决复杂环境下大量文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行等比例还原,保证了密集文字框选的准确性。作为优选,所述步骤三中,先根据图像长宽比,将图像以1.2,0.8为阈值,分为三类X(x1,x2,x3)。再根据图像size,以448作为最长边长max(h,w)的阈值,再次将数据集划分为384,512两个尺度Y(y1,y2),最终我们根据两次分类情况训练出六种不同类别的模型M(m1,m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。作为优选,所述步骤四中,深度神经网络RSTD的构建:基于深度学习网络EAST,将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替,利用残差网络解决原EAST网络中VGG因网络深度导致的梯度消失的问题,使模型的尺寸更小,计算复杂度更低,能更有效的提取复杂环境中的文字定位信息,同时更加满足分类多模型训练和使用的需求。作为优选,所述步骤五中,对横竖排文字进行分类的标准:以1为阈值,分为横纵向两类F(f1,f2),对纵向图片f2进行逆时针90°翻转。作为优选,所述步骤七中,对裁剪后图像旋转矫正的具体方法是:首先获取左上角坐标X1、Y1,右上角坐标X2、Y2,根据公式:得出文字偏转的角度θ,然后以(X1,Y1)为中心点顺时针旋转裁剪后图像,角度为θ。作为优选,所述步骤八中,对图像稀疏处理的具体方法是:对垂直于文字阅读方向的像素采用线性插值算法进行扩增,以达到减小框选信息重叠的效果。本专利技术的有益效果是:1、本专利技术提出的多场景多字体中文文字检测识别方法,针对DCIC2019汉字书法多场景识别大赛数据集能有效提高各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果,利用先进的技术,实时、准确、自动地识别出这些书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。2、本专利技术提出的多场景多字体中文文字检测识别方法,通过RSTD文字定位模型,可以定位图片中的文字区域,通过CRNN识别模型,可以识别定位区域图片的文字信息,RSTD+CRNN双模型可以实现图片中的文字信息识别,能广泛运用在文字录入和文字翻译工作中。3、本专利技术提出的多场景多字体中文文字检测识别方法,可以减少人工识别文字并录入的成本,减小人工误差,充分发挥了深度学习的自我学习的优势,利用深层网络提取到增强型的高级特征。附图说明图1为本专利技术中多种中文文字的检测识别方法及系统基本流程图;图2为本专利技术中RSTD网络框架图,虚线框中是对原网络做出的改动;图3为本专利技术中使用图像增强色彩恒常化算法预处理前后效果对比图;图4为本专利技术中数据集图像的训练标签生成效果图;图5为本专利技术中RSTD网络模型纵向文字定位结果示意图;图6为本专利技术中CRNN网络模型预测结果示意图;图7为本专利技术中系统实现流程示意图。具体实施方式如图1、7所示,利用ICDAR2015比赛公共数据集和DCIC2019汉字书法多场景识别大赛的比赛公共数据集作为训练集,这些数据集包含了文字图片与文字图片中的文字区域坐标、文字区域信息。数据通过人工标注和多字体自动生成获得,都进行了严格的对照审核,保证了模型训练的稳定性。我们使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理,使图像拥有统一的光线,背景颜色,让模型本文档来自技高网...

【技术保护点】
1.一种多场景多字体中文文字检测识别方法,其特征在于,包括如下步骤:/n步骤一:准备数据集,标签包括文字图片的区域位置、区域文字信息;/n步骤二:使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理;/n步骤三:在训练时对不同尺度和不同方向的数据做了分类,根据不同方向将数据集分为三类,根据不同尺寸将数据集分为两类,以便之后分类训练使用;/n步骤四:根据步骤三中的分类数据集,使用深度神经网络RSTD训练出六个不同的模型,并对模型进行评估;每个模型的输入是一张图片,输出是检测出的文字四边形区域坐标:以原图左上角为零点,X1、Y1为文本框左上角坐标,X2、Y2为文本框右上角坐标,X3、Y3为文本框右下角坐标,X4、Y4为文本框左下角坐标;/n步骤五:根据训练时文字定位标签,即文本框的坐标,对图片进行裁剪,同时使用图像锐化算法以30%概率随机处理数据图像;将剪裁后的图像根据横竖标准分为两类,若裁剪图像中文字为纵向排列,则对图像行逆时针90°旋转操作;/n步骤六:根据步骤五的分类数据集,使用深度神经网络CRNN训练出两个不同的横纵文字识别模型,并对模型进行评估;输入内容为文字定位区域,输出内容为对应文字信息;/n步骤七:对于待识别图片,首先按照步骤三将待识别图片进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正;/n步骤八:对于校正后图像,根据类别调用文字识别模型,识别出对应的文字信息,并返回识别信息;同时,为了解决大量复杂环境下文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行等比例还原,保证了密集文字框选的准确性。/n...

【技术特征摘要】
1.一种多场景多字体中文文字检测识别方法,其特征在于,包括如下步骤:
步骤一:准备数据集,标签包括文字图片的区域位置、区域文字信息;
步骤二:使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理;
步骤三:在训练时对不同尺度和不同方向的数据做了分类,根据不同方向将数据集分为三类,根据不同尺寸将数据集分为两类,以便之后分类训练使用;
步骤四:根据步骤三中的分类数据集,使用深度神经网络RSTD训练出六个不同的模型,并对模型进行评估;每个模型的输入是一张图片,输出是检测出的文字四边形区域坐标:以原图左上角为零点,X1、Y1为文本框左上角坐标,X2、Y2为文本框右上角坐标,X3、Y3为文本框右下角坐标,X4、Y4为文本框左下角坐标;
步骤五:根据训练时文字定位标签,即文本框的坐标,对图片进行裁剪,同时使用图像锐化算法以30%概率随机处理数据图像;将剪裁后的图像根据横竖标准分为两类,若裁剪图像中文字为纵向排列,则对图像行逆时针90°旋转操作;
步骤六:根据步骤五的分类数据集,使用深度神经网络CRNN训练出两个不同的横纵文字识别模型,并对模型进行评估;输入内容为文字定位区域,输出内容为对应文字信息;
步骤七:对于待识别图片,首先按照步骤三将待识别图片进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正;
步骤八:对于校正后图像,根据类别调用文字识别模型,识别出对应的文字信息,并返回识别信息;同时,为了解决大量复杂环境下文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行等比例还原,保证了密集文字框选的准确性。


2.如权利要求1所...

【专利技术属性】
技术研发人员:吕岱霖李智星孙玲玲
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1