一种基于端到端的不定长文本识别方法技术

技术编号：22565631 阅读：26 留言：0更新日期：2019-11-16 12:15

本发明专利技术公开了一种基于端到端的不定长文本识别方法，所述方法包括：对图像进行预处理获取定位图像；对所述定位图像中的文本进行定位、分割获取文本区域；对所述文本区域中的文本进行识别获取文本信息。本发明专利技术响应快，使用体验良好，为多张图片的文本识别提供了一种可靠的解决方案。

An end-to-end method for indefinite length text recognition

The invention discloses an end-to-end indefinite length text recognition method, the method includes: preprocessing the image to obtain a positioning image; positioning and segmenting the text in the positioning image to obtain a text area; identifying the text in the text area to obtain text information. The invention has the advantages of fast response, good use experience, and provides a reliable solution for text recognition of multiple pictures.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于端到端的不定长文本识别方法
本专利技术属于图像识别
，尤其涉及一种基于端到端的不定长文本识别方法。
技术介绍
人类对外界信息的认识及感知，最基本的就来自于视觉，因此对视觉信息的搜集与处理，一直是人类认识世界、认识规律的重要手段。人工智能技术，通过对视觉信息的采集，对图形图像信息做科学的筛选、比对并分析，然后经过算法（深度学习）、理解和思考之后，将真实的现实内容呈现在计算机中。随着人工智能、深度学习技术的发展，人工智能技术在视觉领域方面的应用日益突出，得到了广泛的关注和研究。而现如今，图像识别的技术已经越来越成熟，但是大部分的图像识别技术仍然停留在传统的图像处理技术，即通过OpenCV之类的计算机视觉库对图像本身进行人工的特征选取与识别技术，在这种传统的图像识别技术下，不能很好的应用在不同环境下的需求，只能针对某项特殊的场景设计相关的算法，不仅耗时，而且效率极低，换到不同的场景下就需要重新编写算法，十分麻烦，因此需要一种涉及领域广泛，使用场景通用的图像识别技术来满足当前的需求。
技术实现思路
针对现有技术存在的不足，本专利技术提供了一种基于端到端的不定长文本识别方法，以解决现有技术中存在的应用场景比较单一的问题。为解决上述技术问题，本专利技术所采用的技术方案是：一种基于端到端的不定长文本识别方法，所述方法包括：对图像进行预处理获取定位图像；对所述定位图像中的文本进行定位、分割获取文本区域；对所述文本区域中的文本进行识别获取文本信息。>进一步的，所述图像预处理的方法包括：对所述图像依次进行灰度化处理、归一化处理。进一步的，通过将所述定位图像输入至训练后的CTPN神经网络模型中进行定位处理。进一步的，所述CTPN神经网络模型的定位方法包括：对所述定位图像进行分类；获取分类好的文本区域块位置信息；检查位置相近的文本区域块是否水平距离与垂直距离在一定范围内；合并满足条件的文本区域块，直至无法再合并位置，得到文本的整块区域。进一步的，所述CTPN神经网络模型的训练方法包括：对文本区域进行切割成获取微分区域；将原始图片数据集输入至VGG模型获取特征图；将所述特征图依次经过卷积层、长短期记忆网络和全连接层获取微分区域的预测数据；将所述预测数据与微分区域的数据进行比对，通过梯度下降的方法对训练过程进行迭代，得到训练好的CTPN神经网络模型。进一步的，通过将所述文本区域输入至训练后的CRNN+CTC神经网络模型中进行识别处理。进一步的，所述CRNN+CTC神经网络模型训练方法包括：将图片的文本区域切割出来；将文本区域的图片数据集依次经过卷积层、长短期记忆网络获取特征向量的标签分布；将标签分布输入至转录层获取微分区域的标签序列；将标签序列输入至CTC结构当中，使得标签序列和最终预测数字结果对齐，得到预测的文本信息；将预测的文本信息与原始文本信息进行比对，通过梯度下降的方法对训练过程进行迭代，得到训练好的CRNN+CTC神经网络模型。与现有技术相比，本专利技术所达到的有益效果：本专利技术采用深度学习技术，在拥有庞大的数据集的情况下，对不同的环境下的文本识别都具有较为准确的识别率，无需根据情况的不同而改变算法的内部结构，具有算法普适性；本专利技术通过结合定位、分割等步骤，从图片处理到识别完成这一过程完全自动，无需人工的干预，提高了图像识别的高度自动化；传统的图像识别技术，都是利用图像本身的特征进行人为的提取特征，而本方法利用深度学习技术，将特征的提取交给神经网络，提高了在不同场景下的文本识别的准确率，理论上在环境良好的情况下识别率可以到达95%以上；本专利技术对深度学习模块的启动进行了相关优化，使得识别速度得到了提高。附图说明图1为本专利技术中识别文本信息的流程图；图2为本专利技术中文本定位模块流程图；图3为本专利技术中文本识别模块流程图。具体实施方式为了进一步描述本专利技术的技术特点和效果，以下结合附图和具体实施方式对本专利技术做进一步描述。神经网络训练模块、文本定位模块、文本识别模块；所述神经网络训练模块包括数据增强和处理模块、CTPN神经网络训练模块、CRNN+CTC神经网络训练模块；所述文本定位模块包括图像预处理模块；CTPN神经网络预测模块、图像分割模块；所述文本识别模块包括CRNN+CTC神经网络预测模块。如图1、图2、图3所示，一种基于端到端的不定长文本识别方法，包括：图片预处理、文本定位和文本识别、模型训练；所述文本定位包括CTPN神经网络预测、图像分割；文本识别包括CRNN+CTC神经网络预测；模型训练包括数据增强和处理、CTPN神经网络训练、CRNN+CTC神经网络训练。其中所述文本定位包括图像处理、图像进入CTPN神经网络进行预测、图像预测后进行图像切割；文本识别包括图像处理、图像进入CRNN+CTC神经网络预测、返回预测结果至客户端。实践中，用户上传图片到一种基于端到端的不定长文本识别系统，系统对图像进行预处理之后，上传至图像定位模块，在定位完成后对图像进行切割，只保留文本区域部分，再将该部分传送至文本识别模块，对该区域进行识别，最终，将识别好的数据以txt以及可视化界面的形式返回给用户，完成识别文本信息整个过程。具体的，在图像预处理的过程中，首先对图像进行灰度化处理，对图像RGB三分量进行加权处理：f(i,j)=0.3R(i,j)+0.6G(i,j)+0.1B(i,j)取得较为合理的灰度化图像，再根据所得图像，再对图像进行归一化处理，即将图像缩放至统一分辨率。然后，在对准备好的数据集进行据增强和处理，包括：标注图片数据集、对同一图片进行随机亮度、对比度、色度、饱和度的图片扩充，获得大量的增强数据集。在本方法中，是借助tensorflow的接口函数直接完成数据增强操作。数据增强完成后开始训练神经网络，首先是文本定位部分的CTPN神经网络的训练，包括：1）对裁剪好的文本区域进行“微分”操作，将该区域切割成一个个宽度固定的的小块区域（宽度取固定的15像素），得到微分区域数据集。2）输入原始图片数据集，使用VGG模型前五个5个Convstage得到特征图,这些特征将用于预测该位置多个文本区域微分区域对应的类别信息，位置信息。3）使用3*3的窗口作卷积得到下一阶段特征图。4）将提取到的特征输入到双向的长短期记忆网络中，将结果输出至两个全连接层，第一个全连接层预测文本区域的微分区域高度和中心的y轴的坐标，第二个全连接层预测背景和文本的偏移。5）通过回归和分类得到文本区域的微分区域高度和中心的y轴的坐标以及该区域的水平偏移量。6）将预测得到的微分区域信息与原始的微分区域信息进行比对，通过梯度下降方法将该训练过程迭代5万次，得到训练好的CTPN神经网络模型本文档来自技高网...

【技术保护点】
1.一种基于端到端的不定长文本识别方法，其特征在于，所述方法包括：/n对图像进行预处理获取定位图像；/n对所述定位图像中的文本进行定位、分割获取文本区域；/n对所述文本区域中的文本进行识别获取文本信息。/n

【技术特征摘要】
1.一种基于端到端的不定长文本识别方法，其特征在于，所述方法包括：
对图像进行预处理获取定位图像；
对所述定位图像中的文本进行定位、分割获取文本区域；
对所述文本区域中的文本进行识别获取文本信息。

2.根据权利要求1所述的一种基于端到端的不定长文本识别方法，其特征在于，所述图像预处理的方法包括：
对所述图像依次进行灰度化处理、归一化处理。

3.根据权利要求1所述的一种基于端到端的不定长文本识别方法，其特征在于，通过将所述定位图像输入至训练后的CTPN神经网络模型中进行定位处理。

4.根据权利要求3所述的一种基于端到端的不定长文本识别方法，其特征在于，所述CTPN神经网络模型的定位方法包括：
对所述定位图像进行分类；
获取分类好的文本区域块位置信息；
检查位置相近的文本区域块是否水平距离与垂直距离在一定范围内；
合并满足条件的文本区域块，直至无法再合并位置，得到文本的整块区域。

5.根据权利要求3所述的一种基于端到端的不定长文本识别方法，其特征在于，所述CTPN神经网络模型的...

【专利技术属性】
技术研发人员：管鑫，张杉，陈慧萍，平宛鑫，
申请(专利权)人：河海大学常州校区，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人