一种多场景多字体中文文字检测识别方法技术

技术编号：22689398 阅读：20 留言：0更新日期：2019-11-30 03:50

本发明专利技术公开了一种多场景多字体中文文字检测识别方法，本发明专利技术采用EAST和CRNN深度学习网络，根据图像数据的尺度，方向进行分类训练EAST文字定位网络模型和CRNN文字识别网络模型，通过两种网络结合，对多场景下多种中文文字检测识别，取得了理想的效果。一方面该检测方法能提高多场景下文字识别及录入的工作效率，大大降低人力成本；另一方面，在全球化、电子化的今天，利用多场景下多种中文文字的检测识别方法及系统，能实时、准确、自动地识别出非楷书书法文字，对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。

A multi scene and multi font Chinese character detection and recognition method

The invention discloses a multi scene and multi font Chinese character detection and recognition method, which adopts East and crnn deep learning network, classifies and trains East character positioning network model and crnn character recognition network model according to the scale and direction of image data, and combines the two networks to detect and recognize a variety of Chinese characters in multi scene, achieving ideal effect. On the one hand, this detection method can improve the work efficiency of character recognition and input in multi scenes, and greatly reduce the labor cost; on the other hand, in today's globalized and electronic era, using the detection and recognition methods and systems of multiple Chinese characters in multi scenes, it can identify non regular script calligraphy characters in real-time, accurately and automatically. For recording, sorting out calligraphy art and spreading calligraphy behind Chinese culture has important social value.

全部详细技术资料下载

【技术实现步骤摘要】
一种多场景多字体中文文字检测识别方法
本专利技术涉及深度学习领域，涉及一种多场景多字体中文文字检测识别方法。
技术介绍
数字图像的使用和获取在当今时代随着手持照相机和智能手机的普及变得更加的轻松容易，图像中往往包含着大量的文字信息，例如出现在建筑物的标识、路标.车牌以及路边的公告、广告牌中。拍摄这些图像的手持设备本身或者拍摄场景的限制,包含这些文字的图像分辨率可能很低，或者可能因拍摄时的强光照射,图像会有一定的模糊。这些因素会使目前的文字识别技术的准确度大大下降。书法文字是中华文明历经漫长岁月留下的艺术精华，在博物馆里的字画作品、旅游景点里的碑刻、建筑上的题词、对联、牌匾、甚至寻常家居里也会悬挂带有书法艺术的字画，但是由于古代书法字体越来越难以识别，一些由这些书法文字承载的传统文化无法顺利传承。在全球化、电子化的今天，利用先进的技术，实时、准确、自动地识别出这些书法文字，对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。利用人工智能技术，现在的中文识别已经有了很大的突破和极高的准确率。但是对于各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果还不是很好。自然场景文字是图像高层语义的一种重要载体，近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。文本检测作为文本识别、机器翻译等后续过程的前提条件，其核心是区分文本和背景。传统方法使用手动设计特征以获得文本属性，而现在基于深度学习直接从训练数据中学习有效特征，可获得更加鲁棒的高级特征。
技术实现思路
...

【技术保护点】
1.一种多场景多字体中文文字检测识别方法，其特征在于，包括如下步骤：/n步骤一：准备数据集，标签包括文字图片的区域位置、区域文字信息；/n步骤二：使用色彩恒常化预处理算法，随机对训练集图像的50％进行处理；/n步骤三：在训练时对不同尺度和不同方向的数据做了分类，根据不同方向将数据集分为三类，根据不同尺寸将数据集分为两类，以便之后分类训练使用；/n步骤四：根据步骤三中的分类数据集，使用深度神经网络RSTD训练出六个不同的模型，并对模型进行评估；每个模型的输入是一张图片，输出是检测出的文字四边形区域坐标：以原图左上角为零点，X1、Y1为文本框左上角坐标，X2、Y2为文本框右上角坐标，X3、Y3为文本框右下角坐标，X4、Y4为文本框左下角坐标；/n步骤五：根据训练时文字定位标签，即文本框的坐标，对图片进行裁剪，同时使用图像锐化算法以30％概率随机处理数据图像；将剪裁后的图像根据横竖标准分为两类，若裁剪图像中文字为纵向排列，则对图像行逆时针90°旋转操作；/n步骤六：根据步骤五的分类数据集，使用深度神经网络CRNN训练出两个不同的横纵文字识别模型，并对模型进行评估；输入内容为文字定位区域，输出...

【技术特征摘要】
1.一种多场景多字体中文文字检测识别方法，其特征在于，包括如下步骤：
步骤一：准备数据集，标签包括文字图片的区域位置、区域文字信息；
步骤二：使用色彩恒常化预处理算法，随机对训练集图像的50％进行处理；
步骤三：在训练时对不同尺度和不同方向的数据做了分类，根据不同方向将数据集分为三类，根据不同尺寸将数据集分为两类，以便之后分类训练使用；
步骤四：根据步骤三中的分类数据集，使用深度神经网络RSTD训练出六个不同的模型，并对模型进行评估；每个模型的输入是一张图片，输出是检测出的文字四边形区域坐标：以原图左上角为零点，X1、Y1为文本框左上角坐标，X2、Y2为文本框右上角坐标，X3、Y3为文本框右下角坐标，X4、Y4为文本框左下角坐标；
步骤五：根据训练时文字定位标签，即文本框的坐标，对图片进行裁剪，同时使用图像锐化算法以30％概率随机处理数据图像；将剪裁后的图像根据横竖标准分为两类，若裁剪图像中文字为纵向排列，则对图像行逆时针90°旋转操作；
步骤六：根据步骤五的分类数据集，使用深度神经网络CRNN训练出两个不同的横纵文字识别模型，并对模型进行评估；输入内容为文字定位区域，输出内容为对应文字信息；
步骤七：对于待识别图片，首先按照步骤三将待识别图片进行分类，然后根据分类情况调用步骤四中对应的定位模型进行预测，得到待识别图片的文字定位区域坐标，并对坐标区域进行裁剪，将裁剪图像进行横纵向分类和旋转校正；
步骤八：对于校正后图像，根据类别调用文字识别模型，识别出对应的文字信息，并返回识别信息；同时，为了解决大量复杂环境下文字密集排布导致框选信息重叠的问题，在识别前，我们对图像进行了稀疏处理，待检测完成后进行等比例还原，保证了密集文字框选的准确性。

2.如权利要求1所...

【专利技术属性】
技术研发人员：吕岱霖，李智星，孙玲玲，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人