本发明专利技术公开了一种基于tesseract引擎的文字识别方法及其对应的装置,利用云端服务器对本地文字库进行升级来修正tesseract引擎的识别结果,提高了tesseract引擎识别图像中文字的精度。本发明专利技术所述的文字识别装置包括服务器、tesseract引擎模块、云端服务器和本地文字库。升级本地文字库时,服务器采用云端服务器识别出的文字对tesseract引擎模块的识别结果进行修正,将tesseract引擎模块无法正确识别的文字补充进本地文字库。这样,进行文字识别时则可以通过查询本地文字库来提升识别精度。本发明专利技术利用升级后的本地文字库修正tesseract引擎模块的识别结果,可以达到与直接利用云端服务器进行文字识别相同的精度同时也可缩短文字识别运算的时间,适合将日常学习与工作中的图片识别成文字。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于tesseract引擎的文字识别方法及其对应的装置,利用云端服务器对本地文字库进行升级来修正tesseract引擎的识别结果,提高了tesseract引擎识别图像中文字的精度。本专利技术所述的文字识别装置包括服务器、tesseract引擎模块、云端服务器和本地文字库。升级本地文字库时,服务器采用云端服务器识别出的文字对tesseract引擎模块的识别结果进行修正,将tesseract引擎模块无法正确识别的文字补充进本地文字库。这样,进行文字识别时则可以通过查询本地文字库来提升识别精度。本专利技术利用升级后的本地文字库修正tesseract引擎模块的识别结果,可以达到与直接利用云端服务器进行文字识别相同的精度同时也可缩短文字识别运算的时间,适合将日常学习与工作中的图片识别成文字。【专利说明】一种基于tesseract引擎的文字识别方法及装置
本专利技术涉及一种图像识别方法,属于OCR文字识别(Optical CharacterRecognit1n,光学字符识别)
技术介绍
OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。光学字符识别(OCR)是将印刷的文字图像转换成机器编码文本的过程。它被广泛地用于转换印刷纸上的数据记录形式,主要转换对象为护照证件,发票,银行结单,电子收据,名片,邮件,静态数据,或任何合适打印输出的文档。COR可以使得数字化印刷文本被电子地编辑,紧凑地存储、检索、在线显示,并且在机器的进程中更易使用。此外,COR技术在文本到语音的转换,密钥数据和文本挖掘中也经常用到。目前,若需要达到较好的文字识别效果,通常需要使用百度云端的OCR文字识别服务。文字识别服务依托深度学习技术,提供了自然场景下整图文字检测、定位、识别等功能。文字识别的结果可以用于翻译、搜索、TTS(Text to Speech,从文本到语音)等代替用户输入的场景。用户可在百度OCR文字识别服务页面体验并购买使用,但需要大量资金。而传统的OCR文字识别方法,如tesseract引擎,相对云端服务器的OCR服务来说识别率较低,且对图片的质量要求比较高。Tesseract引擎是一种开源的OCR识别引擎,初期的Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除了 bug,优化后重新发布。当前版本为3.02。通常,在采用tesseract引擎进行图片文字识别时,tesseract引擎首先查询本地文字库,寻找是否存在与待识别图片相匹配的识别结果,若存在,则以文字的形式输出该识别结果;若不存在,则通过卷积神经网络这一机器学习算法来进行文字识别,以文字的形式输出识别结果。卷积神经网络(Convolut1nal NeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,通过卷积运算来由浅入深的提取图像的不同层次的特征,而利用神经网络的训练过程让整个网络自动调节卷积核的参数,从而无监督的产生了最适合的分类特征。目前,tesseract引擎采用的正是这种方式进行识别运算。而在采用tesseract引擎进行图像识别时,由于训练量小,该方法所取得的识别精度不高。为保证识别精度,在使用中需要在将识别的文字结果输出给用户后,由用户手动更正识别结果,通过手动的方式来更新本地文字库。因而不能适应目前用户对打印出的文字进行识别的需求。目前的图像文字识别技术要么成本很高,要么识别率很低,都无法满足目前用户对于文字识别的需要。
技术实现思路
专利技术目的:本专利技术针对现有技术中识别率和识别成本的矛盾,提出了一种利用云端服务器对本地文字库升级来修正tesseract引擎识别结果的文字识别方法,能够提高tesseract弓I擎识别图像中文字的精度。具体而言,本专利技术通过云端服务器的api接口调用云端服务器进行图像识别,并借助云端服务器来升级本地文字库,升级之后,本地的tesseract引擎在识别时利用升级后的本地文字库的数据来修正识别结果,提高文字识别的精度。具体技术方案如下:一种OCR文字识别方法,其特征在于识别的具体步骤如下:步骤I,由服务器接收待识别图片;步骤2,将服务器连接云端服务器,服务器同时将待识别图片传输至tesseract引擎模块和云端服务器,tesseract引擎模块和云端服务器同时对待识别图片进行文字识别,并分别将识别结果反馈给服务器,服务器比较两个识别结果,若两个识别结果相同则输出识别结果;若两个识别结果不同,则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库;步骤3,重复步骤I至2直至完成对本地文字库的升级;步骤4,服务器与云端服务器的连接断开,通过esseract引擎模块进行图片文字识别;tesseract引擎模块首先查询本地文字库,寻找是否存在与待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,以文字的形式输出识别结果。如上所述的OCR文字识别方法,其特征在于,所述的步骤2中,服务器与云端服务器的接口为api接口(Applicat1n Programming Interface,应用程序编程接口)。一种OCR文字识别装置,其特征在于包括服务器、tesseract引擎模块、云端服务器和本地文字库;其中,在升级本地文字库阶段,服务器同时连接tesseract引擎模块、云端服务器和本地文字库;服务器同时将接收到的待识别图片发送给tesseract引擎模块和云端服务器,tesseract引擎和云端服务器同时对待识别图片进行文字识别,并分别将识别结果反馈给服务器,服务器比较两个识别结果,若两个识别结果相同则输出识别结果;若两个识别结果不同,则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库;在文字识别阶段,服务器连接tesseract引擎模块和本地文字库,通过esseract引擎模块进行图片文字识别;tesseract引擎模块首先查询本地文字库,寻找是否存在与待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,以文字的形式输出识别结果。本专利技术在服务器上将本地TESSERACT引擎模块的识别结果和云端服务器提供的OCR服务的结果进行对比,将两个识别结果不一致的待识别图片部分截取出来,然后将该图片部分和云端服务器识别的文字结果一起存入本地文字库。充分的利用tesseract引擎的自我学习功能,借助云端服务器来升级本地文字库。在进行文字识别时,断开与云端服务器的连接,利用本地文字库纠正识别结果。有益效果本专利技术利用云端服务器自动地对本地文字库进行升级,通过升级后的本地文字库修正tesseract引擎模块的识别结果。由于云端服务器进行图片文字识别的识别精度较高,因而,云端本文档来自技高网...
【技术保护点】
一种OCR文字识别方法,其特征在于识别的具体步骤如下:步骤1,由服务器接收待识别图片;步骤2,将服务器连接云端服务器,服务器同时将待识别图片传输至tesseract引擎模块和云端服务器,tesseract引擎模块和云端服务器同时对待识别图片进行文字识别,并分别将识别结果反馈给服务器,服务器比较两个识别结果,若两个识别结果相同则进入步骤3;若两个识别结果不同,则将识别结果不一样的待识别图片和其对应的来自云端服务器的识别结果存入本地文字库;步骤3,重复步骤1至2直至完成对本地文字库的升级;步骤4,服务器与云端服务器的连接断开,通过tesseract引擎模块进行图片文字识别;tesseract引擎模块首先查询本地文字库,寻找是否存在与待识别图片相匹配的识别结果,若存在,则以文字的形式输出本地文字库中存储的识别结果;若不存在,则通过卷积神经网络进行文字识别,以文字的形式输出识别结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:孙磊,秦阳,莫凌飞,杜喆宁,姚昕宇,齐恒,冯增涛,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。