图像识别方法、相关装置和设备制造方法及图纸

技术编号:21914657 阅读:32 留言:0更新日期:2019-08-21 12:38
本发明专利技术公开了一种图像识别方法,包括:对图像进行二值化处理,得到二值图;所述图像包括多个字符;对所述二值图进行骨架提取,提取出所述多个字符的骨架信息;从所述骨架信息中提取笔触信息;所述笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息;通过基于深度学习网络的时序识别引擎分析所述笔触信息,识别出所述多个字符以及字符间位置关系信息。本发明专利技术还公开了一种图像识别装置和设备,无需人工设计特征,并且不需要做字符分隔,解决了现有技术对于存在粘连的字符,分隔算法不能很好的处理,导致识别准确率低的技术问题。

Image Recognition Method, Related Devices and Equipment

【技术实现步骤摘要】
图像识别方法、相关装置和设备
本专利技术涉及计算机领域,尤其涉及图像是被方法、相关装置和设备。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。其中,误识率或者识别准确率是衡量OCR性能好坏的一项重要指标。目前,OCR数学字符识别的应用领域很广泛,它在很多场合可替代键盘完成高速的文字录入人文。例如用OCR进行印刷体文稿的识别录入,这是很多办公部门经常使用方法之一;还有可对图形、图像和文本等混排的复杂版面进行自动切分的印刷体识别;还有通过对手写体数字的识别实现邮件自动分拣系统;以及实现手写体表格数据自动录入,其可广泛应用于政府、税务、保险、商、医疗、金融、厂矿等各行业的申报表、调查表等表格数据的输入和处理,等等。现有技术中,对于图像中的字符进行识别,特别是对数学公式进行识别时,往往先对图像进行二值化处理,然后进行字符分隔,切分提取出单个数学字符,并提取数学字符的特征,然后根据字符间的位置关系使用随机上下文无法文法规则进行数学表达式的推导生成数学公式。然后上述现有技术对于存在粘连的字符,分隔算法不能很好的处理,导致识别准确率低。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种图像识别方法、一种图像识别装置、一种图像识别设备、以及一种计算机可读存储介质,解决现有技术对于存在粘连的字符,分隔算法不能很好的处理,导致识别准确率低的技术问题。为了解决上述技术问题,本专利技术实施例的其中一个方面公开了一种图像识别方法,包括:对图像进行二值化处理,得到二值图;所述图像包括多个字符;对所述二值图进行骨架提取,提取出所述多个字符的骨架信息;从所述骨架信息中提取笔触信息;所述笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息;通过基于深度学习网络的时序识别引擎分析所述笔触信息,识别出所述多个字符以及字符间位置关系信息。结合上述一种图像识别方法,所述对所述二值图进行骨架提取,包括:对所述二值图进行迭代腐蚀处理,直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀;其中每次迭代腐蚀包括依次遍历所述二值图中的像素点,对符合指定条件的像素点进行腐蚀。结合上述一种图像识别方法,所述符合指定条件的像素点包括满足以下任一条件的目标像素点:目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值,小于等于第二阈值;所述第一阈值小于所述第二阈值;以顺时针方向查看目标像素点周围8邻的像素点,相邻两个像素点的二值序列为01的次数等于第三阈值;距离相对最近的4个相邻像素点中,存在至少一个像素点的二值为0;所述距离包括与目标像素点相邻的像素点的中心到所述目标像素点的中心的距离。结合上述一种图像识别方法,所述将所述笔触信息经过基于深度学习网络的时序识别引擎,识别所述多个字符以及字符间位置关系信息,包括:将所述笔触信息由卷积神经网络(ConvolutionalNeuralNetwork,CNN)进行特征提取;将提取的特征输入到长短期记忆网络(LongShort-TermMemory,LSTM)中进行字符识别,识别所述多个字符以及字符间位置关系信息。结合上述一种图像识别方法,所述长短期记忆网络LSTM为双向LSTM。结合上述一种图像识别方法,所述对图像进行二值化处理包括:采用最大稳定极值区域(MaximallyStableExtremalRegions,MSER)算法对图像进行二值化处理。结合上述一种图像识别方法,所述多个字符包括数学表达式;所述识别出所述多个字符以及字符间位置关系信息之后,还包括:根据识别出的所述多个字符输出拉泰赫(LaTex)表达式。结合上述一种图像识别方法,所述从所述骨架信息中提取笔触信息包括:针对所述骨架信息按照连通域进行遍历,提取笔触特征点;其中在笔画分叉的情况下,优先提取与上一笔触特征点的方向角较小的笔触特征点。本专利技术实施例另一个方面公开了一种图像识别装置,包括:处理单元,用于对图像进行二值化处理,得到二值图;该图像包括多个字符;提取单元,用于对该二值图进行骨架提取,提取出该多个字符的骨架信息;提取信息单元,用于从该骨架信息中提取笔触信息;该笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息;识别单元用于通过基于深度学习网络的时序识别引擎分析所述笔触信息,识别出所述多个字符以及字符间位置关系信息。结合上述一种图像识别装置,所述提取单元具体用于对所述二值图进行迭代腐蚀处理,直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀;其中每次迭代腐蚀包括依次遍历所述二值图中的像素点,对符合指定条件的像素点进行腐蚀。结合上述一种图像识别装置,所述符合指定条件的像素点包括满足以下任一条件的目标像素点:目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值,小于等于第二阈值;所述第一阈值小于所述第二阈值;以顺时针方向查看目标像素点周围8邻的像素点,相邻两个像素点的二值序列为01的次数等于第三阈值;距离最近的相邻像素点中,存在至少一个像素点的二值为0;所述距离包括与目标像素点相邻的像素点的中心到所述目标像素点的中心的距离。结合上述一种图像识别装置,所述识别单元包括:特征提取单元,用于将该笔触信息由卷积神经网络CNN进行特征提取;字符识别单元,用于将提取的特征输入到长短期记忆网络LSTM中进行字符识别,识别该多个字符以及字符间位置关系信息。结合上述一种图像识别装置,所述多个字符包括数学表达式;所述识别单元输出识别出的所述多个字符包括:根据识别出的所述多个字符输出LaTex表达式。结合上述一种图像识别装置,所述提取信息单元具体用于,针对所述骨架信息按照连通域进行遍历,提取笔触特征点;其中在笔画分叉的情况下,优先提取与上一笔触特征点的方向角较小的笔触特征点。本专利技术实施例另一个方面公开了一种图像识别设备,包括处理器和存储器,所述处理器、和存储器相互连接,其中,所述存储器用于存储应用程序代码,所述处理器被配置用于调用所述程序代码,执行上述一种图像识别方法。本专利技术实施例另一个方面公开了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述一种图像识别方法。实施本专利技术实施例,通过对二值图进行骨架提取,提取出多个字符的骨架信息,然后从骨架信息中提取笔触信息,将笔触信息经过基于深度学习网络的时序识别引擎,识别多个字符以及字符间位置关系信息,无需人工设计特征,并且不需要做字符分隔,解决了现有技术对于存在粘连的字符,分隔算法不能很好的处理,导致识别准确率低的技术问题;特别的本专利技术实施例通过基于时序的深度学习识别模型进行数字字符的识别,将通过CNN提取的特征输入双向LSTM网络中即可输出LaTex表达式,不需要对图像的字符进行分割,也不需要分析字符间的空间位置关系,这些信息都由深度学习识别模型学习获得的,即实现了端到端的识别,因此本专利技术实施例可以适应多种复杂场景,识别准确率得到了很大的提高。附图说明为了说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述本文档来自技高网...

【技术保护点】
1.一种图像识别方法,其特征在于,包括:对图像进行二值化处理,得到二值图;所述图像包括多个字符;对所述二值图进行骨架提取,提取出所述多个字符的骨架信息;从所述骨架信息中提取笔触信息;所述笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息;通过基于深度学习网络的时序识别引擎分析所述笔触信息,识别出所述多个字符以及字符间位置关系信息。

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:对图像进行二值化处理,得到二值图;所述图像包括多个字符;对所述二值图进行骨架提取,提取出所述多个字符的骨架信息;从所述骨架信息中提取笔触信息;所述笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息;通过基于深度学习网络的时序识别引擎分析所述笔触信息,识别出所述多个字符以及字符间位置关系信息。2.如权利要求1所述的方法,其特征在于,所述对所述二值图进行骨架提取,包括:对所述二值图进行迭代腐蚀处理,直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀;其中每次迭代腐蚀包括依次遍历所述二值图中的像素点,对符合指定条件的像素点进行腐蚀。3.如权利要求2所述的方法,其特征在于,所述符合指定条件的像素点包括满足以下任一条件的目标像素点:目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值,小于等于第二阈值;所述第一阈值小于所述第二阈值;以顺时针方向查看目标像素点周围8邻的像素点,相邻两个像素点的二值序列为01的次数等于第三阈值;距离相对最近的4个相邻像素点中,存在至少一个像素点的二值为0;所述距离包括与目标像素点相邻的像素点的中心到所述目标像素点的中心的距离。4.如权利要求1所述的方法,其特征在于,所述将所述笔触信息经过基于深度学习网络的时序识别引擎,识别所述多个字符以及字符间位置关系信息,包括:将所述笔触信息由卷积神经网络CNN进行特征提取;将提取的特征输入到长短期记忆网络LSTM中进行字符识别,识别所述多个字符以及字符间位置关系信息。5.如权利要求1所述的方法,其特征在于,所述对图像进行二值化处理包括:采用最大稳定极值区域MSER算法对图像进行二值化处理。6.如权利要求4所述的方法,其特征在于,所述多个字符包括数学表达式;所述识别出所述多个字符以及字符间位置关系信息之后,还包括:根据识别出的所述多个字符输出LaTex表达式。7.如权利要求1所述的方法,其特征在于,所述从所述骨架信息中提取笔触信息包括:针对所述骨架信息按照连通域进行遍历,提取笔触特征点;其中在笔画分叉的情况下,优先提取与上一笔触特征点的方向角较小的笔触特征点。8.一种图像识别装置,其特征在于,包括:处理单元,用于对图像进行二值化处理,得到二值图;该图像包括多...

【专利技术属性】
技术研发人员:李辉
申请(专利权)人:腾讯科技深圳有限公司腾讯云计算北京有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1