一种字符分割方法及终端技术

技术编号:21478993 阅读:21 留言:0更新日期:2019-06-29 05:06
本发明专利技术涉及一种字符分割方法及终端,属于数据处理领域。本发明专利技术通过采用垂直投影法分割字符图像中的字符,得到字符有序集合;当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。实现提高对同时包含多种类型字符的字符图像进行字符分割的准确性。

【技术实现步骤摘要】
一种字符分割方法及终端
本专利技术涉及一种字符分割方法及终端,属于数据处理领域。
技术介绍
申请号为201810175856.0的专利文献公开了一种字符分割位置的确定、字符分割方法、装置及设备,所述字符分割位置的确定方法包括:根据待分割字符串图像中包括的至少一个粘连子串、所述粘连子串的宽度以及单个字符的平均宽度,确定与所述粘连子串中包括的各字符对应的目标分割位置;根据字符间粘连区域的属性信息,确定与所述粘连子串对应的至少一个备选分割位置;根据所述粘连子串的边界位置、与所述粘连子串对应的至少一个备选分割位置,以及预设更新条件,对所述目标分割位置进行更新,解决现有分割法对粘连字符的分割效果不佳及存在漏分、错分的问题,从而提高粘连字符的分割准确率,提升粘连字符的分割效果。但是,上述专利文献提供的字符分割方法中是否采用备选分割位置必须要满足条件:上一个确定的目标分割位置对应的区域宽度与当前目标备选分割位置对应的区域宽度的差在第一预设范围内。即上述专利文献适用于对字符宽度相似的字符图像进行字符分割,对于一个字符图像中同时包含汉字、英文和数字等字符宽度不一的应用场景,其分割效果较差。
技术实现思路
本专利技术所要解决的技术问题是:如何提高对同时包含多种类型字符的字符图像进行字符分割的准确性。为了解决上述技术问题,本专利技术采用的技术方案为:本专利技术提供一种字符分割方法,包括:采用垂直投影法分割字符图像中的字符,得到字符有序集合;当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。优选地,还包括:当第四字符的宽度大于所述预设的上限值时,获取第五字符和第六字符;所述第四字符为所述字符有序集合中的一字符;所述第四字符由所述第五字符和所述第六字符组成;调用OCR识别引擎识别所述第五字符,得到第二识别结果;调用OCR识别引擎识别所述第六字符,得到第三识别结果;若所述第二识别结果的置信度和所述第三识别结果的置信度均大于所述预设的置信度阈值,则将所述字符有序集合中的所述第四字符分割成所述第五字符和所述第六字符。优选地,获取所述预设的上限值和下限值的步骤为:统计所述字符有序集合的平均字符宽度;所述上限值为所述平均字符宽度的1.2倍;所述下限值为所述平均字符宽度的80%。优选地,采用垂直投影法分割字符图像中的字符,得到字符有序集合,具体为:S1、二值化所述字符图像,得到二值图像;S2、从所述二值图像中获取一行字符的图像,得到行图像;S3、垂直投影所述行图像,得到垂直投影直方图;所述垂直投影直方图的横坐标表示一黑色像素点在所述行图像中的水平位置;所述垂直投影直方图的纵坐标表示黑色像素点个数;S4、获取所述垂直投影直方图中,纵坐标值为零的点的横坐标值,得到坐标值集合;S5、根据所述坐标值集合分割所述行图像,得到行字符有序集合;S6、重复执行所述步骤S2至所述步骤S5,直至所述二值图像所有行均被遍历;所述字符有序集合由所有的所述行字符有序集合组成。本专利技术还提供一种字符分割终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:采用垂直投影法分割字符图像中的字符,得到字符有序集合;当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。优选地,还包括:当第四字符的宽度大于所述预设的上限值时,获取第五字符和第六字符;所述第四字符为所述字符有序集合中的一字符;所述第四字符由所述第五字符和所述第六字符组成;调用OCR识别引擎识别所述第五字符,得到第二识别结果;调用OCR识别引擎识别所述第六字符,得到第三识别结果;若所述第二识别结果的置信度和所述第三识别结果的置信度均大于所述预设的置信度阈值,则将所述字符有序集合中的所述第四字符分割成所述第五字符和所述第六字符。优选地,获取所述预设的上限值和下限值的步骤为:统计所述字符有序集合的平均字符宽度;所述上限值为所述平均字符宽度的1.2倍;所述下限值为所述平均字符宽度的80%。优选地,采用垂直投影法分割字符图像中的字符,得到字符有序集合,具体为:S1、二值化所述字符图像,得到二值图像;S2、从所述二值图像中获取一行字符的图像,得到行图像;S3、垂直投影所述行图像,得到垂直投影直方图;所述垂直投影直方图的横坐标表示一黑色像素点在所述行图像中的水平位置;所述垂直投影直方图的纵坐标表示黑色像素点个数;S4、获取所述垂直投影直方图中,纵坐标值为零的点的横坐标值,得到坐标值集合;S5、根据所述坐标值集合分割所述行图像,得到行字符有序集合;S6、重复执行所述步骤S2至所述步骤S5,直至所述二值图像所有行均被遍历;所述字符有序集合由所有的所述行字符有序集合组成。本专利技术具有如下有益效果:1、本专利技术提供一种字符分割方法及终端,区别于现有技术根据字符图像的平均字符宽度修正垂直投影法的初步字符分割结果,对于字符图像中字符类型单一的应用场景能够较好地消除黏连和误分割的情形。但是,对于字符图像中字符类型多样的应用场景,由于不同字符类型的字符宽度差别较大,其修正效果差。例如,一个字符图像中大部分字符为汉字,夹杂少量的英文和数字。该字符图像的平均字符宽度与汉字的字符宽度近似。该字符图像中存在字符片段“2013年”,其中,包含字符“2”、“0”、“1”、“3”和“年”。由于,数字的字符宽度明显小于汉字的字符宽度。根据上述现有技术,会将“2”与“0”合并为一个字符“20”,“1”与“3”合并为一个字符“13”。显然,“20”和“13”均不是一个正确的字符。本专利技术提供的字符分割方法及终端,检测到一个字符的宽度小于预设的下限值时,即发现根据垂直投影法初步分割的过程中,存在将一个字符误分割成两个字符的可能时,先调用OCR识别引擎识别合并后的字符,若识别结果的置信度大于预设的置信度阈值,说明合并后的字符较大概率是一个正确的字符,则将两字符合并,否则不合并两字符。例如,OCR识别引擎对“20”进行识别,识别结果的置信度远低于预设的置信度阈值,则说明“20”不是一个正确的字符,不将“2”和“0”合并。OCR识别引擎对“础”进行识别,识别结果的置信度大于预设的置信度阈值,则说明“础”是一个正确的字符。并且合并后的“础”的宽度小于预设的上限值,“石”的宽度小于预设的下限值,说明“石”极有可能只是一个拼旁部首,“础”在根据垂直投影法分割字符的过程中被误分割为“石”和“出”,因此,应将二者合并为“础”。本专利技术在根据字符宽度执行合并字符操作之前,先调用OCR识别引擎识本文档来自技高网...

【技术保护点】
1.一种字符分割方法,其特征在于,包括:采用垂直投影法分割字符图像中的字符,得到字符有序集合;当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。

【技术特征摘要】
1.一种字符分割方法,其特征在于,包括:采用垂直投影法分割字符图像中的字符,得到字符有序集合;当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。2.根据权利要求1所述的字符分割方法,其特征在于,还包括:当第四字符的宽度大于所述预设的上限值时,获取第五字符和第六字符;所述第四字符为所述字符有序集合中的一字符;所述第四字符由所述第五字符和所述第六字符组成;调用OCR识别引擎识别所述第五字符,得到第二识别结果;调用OCR识别引擎识别所述第六字符,得到第三识别结果;若所述第二识别结果的置信度和所述第三识别结果的置信度均大于所述预设的置信度阈值,则将所述字符有序集合中的所述第四字符分割成所述第五字符和所述第六字符。3.根据权利要求1所述的字符分割方法,其特征在于,获取所述预设的上限值和下限值的步骤为:统计所述字符有序集合的平均字符宽度;所述上限值为所述平均字符宽度的1.2倍;所述下限值为所述平均字符宽度的80%。4.根据权利要求1所述的字符分割方法,其特征在于,采用垂直投影法分割字符图像中的字符,得到字符有序集合,具体为:S1、二值化所述字符图像,得到二值图像;S2、从所述二值图像中获取一行字符的图像,得到行图像;S3、垂直投影所述行图像,得到垂直投影直方图;所述垂直投影直方图的横坐标表示一黑色像素点在所述行图像中的水平位置;所述垂直投影直方图的纵坐标表示黑色像素点个数;S4、获取所述垂直投影直方图中,纵坐标值为零的点的横坐标值,得到坐标值集合;S5、根据所述坐标值集合分割所述行图像,得到行字符有序集合;S6、重复执行所述步骤S2至所述步骤S5,直至所述二值图像所有行均被遍历;所述字符有序集合由所有的所述行字符有序集合组成。5.一种字符分割终端,其特征在于,包括一个或多...

【专利技术属性】
技术研发人员:庄国金郝占龙陈文传杜保发林玉玲吴建杭方恒凯
申请(专利权)人:厦门商集网络科技有限责任公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1