一种基于端到端的不定长文本识别方法技术

技术编号:22565631 阅读:26 留言:0更新日期:2019-11-16 12:15
本发明专利技术公开了一种基于端到端的不定长文本识别方法,所述方法包括:对图像进行预处理获取定位图像;对所述定位图像中的文本进行定位、分割获取文本区域;对所述文本区域中的文本进行识别获取文本信息。本发明专利技术响应快,使用体验良好,为多张图片的文本识别提供了一种可靠的解决方案。

An end-to-end method for indefinite length text recognition

The invention discloses an end-to-end indefinite length text recognition method, the method includes: preprocessing the image to obtain a positioning image; positioning and segmenting the text in the positioning image to obtain a text area; identifying the text in the text area to obtain text information. The invention has the advantages of fast response, good use experience, and provides a reliable solution for text recognition of multiple pictures.

【技术实现步骤摘要】
一种基于端到端的不定长文本识别方法
本专利技术属于图像识别
,尤其涉及一种基于端到端的不定长文本识别方法。
技术介绍
人类对外界信息的认识及感知,最基本的就来自于视觉,因此对视觉信息的搜集与处理,一直是人类认识世界、认识规律的重要手段。人工智能技术,通过对视觉信息的采集,对图形图像信息做科学的筛选、比对并分析,然后经过算法(深度学习)、理解和思考之后,将真实的现实内容呈现在计算机中。随着人工智能、深度学习技术的发展,人工智能技术在视觉领域方面的应用日益突出,得到了广泛的关注和研究。而现如今,图像识别的技术已经越来越成熟,但是大部分的图像识别技术仍然停留在传统的图像处理技术,即通过OpenCV之类的计算机视觉库对图像本身进行人工的特征选取与识别技术,在这种传统的图像识别技术下,不能很好的应用在不同环境下的需求,只能针对某项特殊的场景设计相关的算法,不仅耗时,而且效率极低,换到不同的场景下就需要重新编写算法,十分麻烦,因此需要一种涉及领域广泛,使用场景通用的图像识别技术来满足当前的需求。
技术实现思路
针对现有技术存在的不足,本专利技术提供了一种基于端到端的不定长文本识别方法,以解决现有技术中存在的应用场景比较单一的问题。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于端到端的不定长文本识别方法,所述方法包括:对图像进行预处理获取定位图像;对所述定位图像中的文本进行定位、分割获取文本区域;对所述文本区域中的文本进行识别获取文本信息。>进一步的,所述图像预处理的方法包括:对所述图像依次进行灰度化处理、归一化处理。进一步的,通过将所述定位图像输入至训练后的CTPN神经网络模型中进行定位处理。进一步的,所述CTPN神经网络模型的定位方法包括:对所述定位图像进行分类;获取分类好的文本区域块位置信息;检查位置相近的文本区域块是否水平距离与垂直距离在一定范围内;合并满足条件的文本区域块,直至无法再合并位置,得到文本的整块区域。进一步的,所述CTPN神经网络模型的训练方法包括:对文本区域进行切割成获取微分区域;将原始图片数据集输入至VGG模型获取特征图;将所述特征图依次经过卷积层、长短期记忆网络和全连接层获取微分区域的预测数据;将所述预测数据与微分区域的数据进行比对,通过梯度下降的方法对训练过程进行迭代,得到训练好的CTPN神经网络模型。进一步的,通过将所述文本区域输入至训练后的CRNN+CTC神经网络模型中进行识别处理。进一步的,所述CRNN+CTC神经网络模型训练方法包括:将图片的文本区域切割出来;将文本区域的图片数据集依次经过卷积层、长短期记忆网络获取特征向量的标签分布;将标签分布输入至转录层获取微分区域的标签序列;将标签序列输入至CTC结构当中,使得标签序列和最终预测数字结果对齐,得到预测的文本信息;将预测的文本信息与原始文本信息进行比对,通过梯度下降的方法对训练过程进行迭代,得到训练好的CRNN+CTC神经网络模型。与现有技术相比,本专利技术所达到的有益效果:本专利技术采用深度学习技术,在拥有庞大的数据集的情况下,对不同的环境下的文本识别都具有较为准确的识别率,无需根据情况的不同而改变算法的内部结构,具有算法普适性;本专利技术通过结合定位、分割等步骤,从图片处理到识别完成这一过程完全自动,无需人工的干预,提高了图像识别的高度自动化;传统的图像识别技术,都是利用图像本身的特征进行人为的提取特征,而本方法利用深度学习技术,将特征的提取交给神经网络,提高了在不同场景下的文本识别的准确率,理论上在环境良好的情况下识别率可以到达95%以上;本专利技术对深度学习模块的启动进行了相关优化,使得识别速度得到了提高。附图说明图1为本专利技术中识别文本信息的流程图;图2为本专利技术中文本定位模块流程图;图3为本专利技术中文本识别模块流程图。具体实施方式为了进一步描述本专利技术的技术特点和效果,以下结合附图和具体实施方式对本专利技术做进一步描述。神经网络训练模块、文本定位模块、文本识别模块;所述神经网络训练模块包括数据增强和处理模块、CTPN神经网络训练模块、CRNN+CTC神经网络训练模块;所述文本定位模块包括图像预处理模块;CTPN神经网络预测模块、图像分割模块;所述文本识别模块包括CRNN+CTC神经网络预测模块。如图1、图2、图3所示,一种基于端到端的不定长文本识别方法,包括:图片预处理、文本定位和文本识别、模型训练;所述文本定位包括CTPN神经网络预测、图像分割;文本识别包括CRNN+CTC神经网络预测;模型训练包括数据增强和处理、CTPN神经网络训练、CRNN+CTC神经网络训练。其中所述文本定位包括图像处理、图像进入CTPN神经网络进行预测、图像预测后进行图像切割;文本识别包括图像处理、图像进入CRNN+CTC神经网络预测、返回预测结果至客户端。实践中,用户上传图片到一种基于端到端的不定长文本识别系统,系统对图像进行预处理之后,上传至图像定位模块,在定位完成后对图像进行切割,只保留文本区域部分,再将该部分传送至文本识别模块,对该区域进行识别,最终,将识别好的数据以txt以及可视化界面的形式返回给用户,完成识别文本信息整个过程。具体的,在图像预处理的过程中,首先对图像进行灰度化处理,对图像RGB三分量进行加权处理:f(i,j)=0.3R(i,j)+0.6G(i,j)+0.1B(i,j)取得较为合理的灰度化图像,再根据所得图像,再对图像进行归一化处理,即将图像缩放至统一分辨率。然后,在对准备好的数据集进行据增强和处理,包括:标注图片数据集、对同一图片进行随机亮度、对比度、色度、饱和度的图片扩充,获得大量的增强数据集。在本方法中,是借助tensorflow的接口函数直接完成数据增强操作。数据增强完成后开始训练神经网络,首先是文本定位部分的CTPN神经网络的训练,包括:1)对裁剪好的文本区域进行“微分”操作,将该区域切割成一个个宽度固定的的小块区域(宽度取固定的15像素),得到微分区域数据集。2)输入原始图片数据集,使用VGG模型前五个5个Convstage得到特征图,这些特征将用于预测该位置多个文本区域微分区域对应的类别信息,位置信息。3)使用3*3的窗口作卷积得到下一阶段特征图。4)将提取到的特征输入到双向的长短期记忆网络中,将结果输出至两个全连接层,第一个全连接层预测文本区域的微分区域高度和中心的y轴的坐标,第二个全连接层预测背景和文本的偏移。5)通过回归和分类得到文本区域的微分区域高度和中心的y轴的坐标以及该区域的水平偏移量。6)将预测得到的微分区域信息与原始的微分区域信息进行比对,通过梯度下降方法将该训练过程迭代5万次,得到训练好的CTPN神经网络模型本文档来自技高网...

【技术保护点】
1.一种基于端到端的不定长文本识别方法,其特征在于,所述方法包括:/n对图像进行预处理获取定位图像;/n对所述定位图像中的文本进行定位、分割获取文本区域;/n对所述文本区域中的文本进行识别获取文本信息。/n

【技术特征摘要】
1.一种基于端到端的不定长文本识别方法,其特征在于,所述方法包括:
对图像进行预处理获取定位图像;
对所述定位图像中的文本进行定位、分割获取文本区域;
对所述文本区域中的文本进行识别获取文本信息。


2.根据权利要求1所述的一种基于端到端的不定长文本识别方法,其特征在于,所述图像预处理的方法包括:
对所述图像依次进行灰度化处理、归一化处理。


3.根据权利要求1所述的一种基于端到端的不定长文本识别方法,其特征在于,通过将所述定位图像输入至训练后的CTPN神经网络模型中进行定位处理。


4.根据权利要求3所述的一种基于端到端的不定长文本识别方法,其特征在于,所述CTPN神经网络模型的定位方法包括:
对所述定位图像进行分类;
获取分类好的文本区域块位置信息;
检查位置相近的文本区域块是否水平距离与垂直距离在一定范围内;
合并满足条件的文本区域块,直至无法再合并位置,得到文本的整块区域。


5.根据权利要求3所述的一种基于端到端的不定长文本识别方法,其特征在于,所述CTPN神经网络模型的...

【专利技术属性】
技术研发人员:管鑫张杉陈慧萍平宛鑫
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1