一种基于深度学习的汉字识别系统的实现方法技术方案

技术编号:15330471 阅读:242 留言:0更新日期:2017-05-16 13:55
本发明专利技术公开了一种基于深度学习的汉字识别系统的实现方法,属于图像处理技术领域,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。本发明专利技术使用图像处理技术完成灰度化、二值化,泛化能力强,抗干扰能力强。

Method for implementing Chinese character recognition system based on depth learning

The invention discloses a method for realizing Chinese characters recognition system based on deep learning, which belongs to the technical field of image processing, the picture that contains text preprocessing, segmentation, recognition, into a piece of text, so as to realize the image to text translation; including: 1) pretreatment picture: for the original image gray scale the input, binarization, tilt correction, get a regular picture; 2) for image segmentation on image segmentation: input the length of the text, the first cut into the line, and then on each line to separate a single word; 3) image recognition: the recognition for single word segmentation. Each word picture call recognition module, draw text recognition results; 4) for text Restructuring: isolated word recognition results obtained in accordance with the order, and then corrected the final output results Text segment. The invention adopts the image processing technology to accomplish the gradation, the two values, the strong generalization ability and the strong anti-interference ability.

【技术实现步骤摘要】
一种基于深度学习的汉字识别系统的实现方法
本专利技术涉及图像处理
,具体地说是一种基于深度学习的汉字识别系统的实现方法。
技术介绍
随着互联网和人工智能的迅猛发展,交流和信息传递方式从文字向图片和语音的方式转变,图片文字信息的识别的成为一个重要需求。传统的文字信息识别方法,通过计算图片像素、图片中文字的外围结构、笔划方向等,生成单个文字特征库,识别环节通过与特征库比对找出最小距离,从而判断文字类别,对于不同字号、横纵拉伸及旋转的文字图片识别能力差。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种基于深度学习的汉字识别系统的实现方法,使用图像处理技术完成灰度化、二值化,泛化能力强,抗干扰能力强。本专利技术解决其技术问题所采用的技术方案是:一种基于深度学习的汉字识别系统的实现方法,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。使用技术:基于汉字识别的图片质量和性能要求,整个识别系统采用C/C++编写,图像处理模块部分调用opencv的处理接口,深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。图像预处理:输入的文字图像多为多通道、有噪声和有倾斜的图片,在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片,然后将其通过阈值转化为只有0和1的二值化图片,接着分析图片中的文字区域,将其切割出来,对切割图片进行倾斜校正,尽量保证行是水平的,最后对文字区域进行行切割,对每行进行字切割。其中切割部分采用投影方法,行切割中,对每行进行投影,根据行间的空白部分,统计切割出每一行;对于每行文字,采用列投影,根据字间隔统计字的大致宽度及字之间的间隔距离,然后在切割中对每个字宽和左右部首宽度做具体策略,先统计后切割,根据输入图片动态调整阈值,最终实现窄字符及左右或左中右结构汉字不被切割错,完成字切割。图像识别:图像识别指单个文字图像的识别,包括训练和模型使用两部分。训练过程中,先生成训练和测试两个数据集合,本专利技术主要针对印刷体的宋体、仿宋、黑体和楷体四种类型,字号采用小四,扫描后切割出单个字符图像,通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合,组合北邮的手写样本1000*3755,最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测,通过模型调节和测试,最终产出网络模型和参数权重文件。汉字识别系统流程实现:前端部分为图片输入,后端对输入的图像进行预处理、行字切割,调用深度网络模型识别单个图像汉字类别,并按照原始图像的段落重新组合出文本段,然后调用自然语言处理的相关接口,完成文本校正,并将其返回到前端。对于用户使用,只需将待检测图片上传,服务器经过一系列运算,将识别结果返回给用户。使用时,用户只需要将待识别的文字图片上传,通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字切分,调用深度网络模型,计算得到分类预测。然后将单字图片的预测文字按照行和段组合,并调用自然语言处理词库进行文本校正,最后将校正后的文本段返回给用户。本专利技术的一种基于深度学习的汉字识别系统的实现方法和现有技术相比,具有以下有益效果:用户使用移动端或web端上传待识别文字图片后,后端服务器实时计算,完成图片预处理、分割和识别,文本校正后返回给用户。整个后端多任务并发执行,快速反馈结果,并且可以同时响应多个用户的请求;前端提供用户编辑接口,用户可以标注版面、调整图片倾斜等,满足自主编辑,同时提供一键化识别;引入深度网络结构,使识别准确率比传统方法提升,同时降低开发者对图像及文字相关专业知识的大量学习成本。具体实施方式下面结合具体实施例对本专利技术作进一步说明。一种基于深度学习的汉字识别系统的实现方法,将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;使用技术:基于汉字识别的图片质量和性能要求,整个识别系统采用C/C++编写,图像处理模块部分调用opencv的处理接口,深度学习模型采用C++版本的Caffe开源框架的Lenet模型的改进版本。包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片。输入的文字图像多为多通道、有噪声和有倾斜的图片,在识别前对图片做归一化。首先将多通道图片转化为单通道的灰度图片,然后将其通过阈值转化为只有0和1的二值化图片,接着分析图片中的文字区域,将其切割出来,对切割图片进行倾斜校正,尽量保证行是水平的,最后对文字区域进行行切割,对每行进行字切割。其中切割部分采用投影方法,行切割中,对每行进行投影,根据行间的空白部分,统计切割出每一行;对于每行文字,采用列投影,根据字间隔统计字的大致宽度及字之间的间隔距离,然后在切割中对每个字宽和左右部首宽度做具体策略,先统计后切割,根据输入图片动态调整阈值,最终实现窄字符及左右或左中右结构汉字不被切割错,完成字切割。2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字。3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果。图像识别指单个文字图像的识别,包括训练和模型使用两部分。训练过程中,先生成训练和测试两个数据集合,本专利技术主要针对印刷体的宋体、仿宋、黑体和楷体四种类型,字号采用小四,扫描后切割出单个字符图像,通过横纵向拉伸、角度倾斜和缩放等变换产出400*3755个样本集合,组合北邮的手写样本1000*3755,最后将1400*3755放入样本集合分成测试集和训练集。调用深度网络Lenet模型对3755类的汉字进行训练和预测,通过模型调节和测试,最终产出网络模型和参数权重文件。汉字识别系统流程实现:前端部分为图片输入,后端对输入的图像进行预处理、行字切割,调用深度网络模型识别单个图像汉字类别,并按照原始图像的段落重新组合出文本段,然后调用自然语言处理的相关接口,完成文本校正,并将其返回到前端。对于用户使用,只需将待检测图片上传,服务器经过一系列运算,将识别结果返回给用户。4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。汉字识别系统,使用图像处理技术完成灰度化、二值化,使用图片像素统计、分析,实现倾斜校正和行、字切分,引入深度学习,实现文字图片识别,引入自然语言处理,实现文本重组和校正。使用时,用户只需要将待识别的文字图片上传,通信服务器将图片转发至后端服务器。后端服务器首先将图片进行灰度化、二值化、倾斜校正、行字本文档来自技高网...

【技术保护点】
一种基于深度学习的汉字识别系统的实现方法,其特征在于将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;3)图片识别:用于识别切分出的单个字,将每个单字图片调用识别模块,得出识别文字结果;4)文本重组:用于对得到的单个字识别结果按照顺序组合,并进行校正,最终产出识别结果文本段。

【技术特征摘要】
1.一种基于深度学习的汉字识别系统的实现方法,其特征在于将包含文字的图片进行预处理、切分、识别,重组成一段文本,从而实现图片到文本的转换;包括:1)图片预处理:用于对输入的原始图片灰度化、二值化、倾斜校正,得到一张比较规整的图片;2)图片切分:用于对输入的大篇幅文字的图片切分,先切分成行,然后对每一行切分出单个的字;3)图片识别:用于识别切分出的单个字,将每个单字图...

【专利技术属性】
技术研发人员:衣秀陈安猛房善华王本强郭运艳
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1