基于OCR识别的文本字符分割方法及系统技术方案

技术编号:32106645 阅读:19 留言:0更新日期:2022-01-29 18:48
本发明专利技术特别涉及一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,进行漏识别字符添加并确定所有字符索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、对内容为符号的字符位置信息进行偏移调整;S500、根据相邻的两个位置信息计算分割位置;S600、根据分割位置对字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。准。准。

【技术实现步骤摘要】
基于OCR识别的文本字符分割方法及系统


[0001]本专利技术涉及文本处理
,特别涉及一种基于OCR识别的文本字符分割方法及系统。

技术介绍

[0002]OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
[0003]OCR技术非常的成熟,比如论文Detecting Text in Natural Image with Connectionist Text Proposal Network(Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao,ECCV (8) 2016:56

72)中就公开了一种经典的文本检查算法,其在进行文本字符识别时,对任一文本检测行,其会分成多个一定宽度的小框,并对每个小框中的内容进行模板匹配,识别过程中会输出每个小框的索引、内容及置信度信息,然后根据这些信息识别文本并输出。并且,更多的人在此基础上进行改进,提供了更多可靠且有效的算法,使得文本字符的识别技术更加成熟。
[0004]针对文本的隐形水印技术,近些年开始逐渐成熟起来,其基本的原理就是通过对字符进行轻微变形,这种变形在肉眼上很难分辨出来,但是通过计算机就可以准确的提取出其中的变形信息,字符中的变形信息可以用于信息隐藏、版权追踪、泄密溯源等多个场景。为了准确的提取字符的变形信息,对文本中字符进行准确的分割至关重要,目前已有的文本字符分割方法实际分割效果都不是很理想,这也直接影响后续对隐藏信息提取的准确性。

技术实现思路

[0005]本专利技术的目的在于提供一种基于OCR识别的文本字符分割方法及系统,能够非常迅速和精准的对文本中的字符进行分割。
[0006]为实现以上目的,本专利技术采用的技术方案为:一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;S500、根据位置信息和计算分割位置,其中;S600、根据行首位置、行尾位置以及步骤S400计算得到的分割位置
对该行中的字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。
[0007]与现有技术相比,本专利技术存在以下技术效果:现有技术中的OCR算法非常成熟,但是其只能输出识别出的字符内容,这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。
附图说明
[0008]图1是OCR识别后的输出信息示意图;图2是本专利技术的流程示意图;图3是分割位置计算示意图;图4是本专利技术的系统框图;图5是现有技术中对字符进行分割后的效果图;图6是本专利技术中对字符进行分割后的效果图。
具体实施方式
[0009]下面结合图1至图6,对本专利技术做进一步详细叙述。
[0010]参阅图1和图2,一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;图1中所示的即为OCR算法对文本进行识别后输出的信息,其中,索引自行首从0开始,逐渐增加,内容即该索引对应小框中识别出的具体字符,一般来说,OCR算法中将汉字编码成0

3000左右的数字,每个字符对应一个数字,一般输出的内容是数字,也即汉字的标签值,对于我们来说,标签值和字符是一一对应的,所以本专利技术中并不对标签值和字符作区分,可认为他们表示的是同一个信息。置信度即识别字符与模板的匹配度,对于OCR模板库中没有的一些生僻字,其一般会识别为空且置信度较低。需要说明的是,本专利技术中的图1和图3只是便于大家理解的示意图,实际处理时,真实的汉字像素大小与小框、权重位置并非如图所示的比例。
[0011]S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置。漏识别的字符我们也需要进行分割,因此需要先将漏识别字符添加进来,一般是选择置信度持续较低的一些区域,比如若连续出现a个置信度均低于设定阈值的索引位置,则判定其为漏识别字符。对漏识别字符进行添加以后,所有非空内容即为字符区域,针对任一字符,记录该字符对应的多个置信度中置信度最大处的索引位置,每个字符的位置就相当于被标记出来了。
[0012]S300、对上述索引位置进行处理得到每个字符的位置信息,因为我们是对一行文本进行检测的,这里的位置信息对应的是横坐标;OCR算法进行文本中字符识别时,输出的是索引位置,我们在进行分割是,一般是根据坐标信息进行分割的,因为我们需要将索引位置换算成具体的位置信息。每个索引对应的实际位置坐标,可以根据OCR算法在进行识别时每个小框的像素宽度来进行换算得到。具体地,所述的步骤S300中,根据神经网络LSTM时间长度以及文本检测行尺寸信息进行特征逆计算,将索引位置放大与文本检测行图像变换后的矫正图的尺寸信息形成映射关系,并根据该映射关系将索引位置处理成字
符位置信息,这里的图像变换可以是透视变换或仿射变换。
[0013]S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;由于很多汉字字体中,符号一般偏左下角位置,导致该字符的位置与前一个字距离较近、与后一个字距离较远,我们后续进行分割时时需要取两个分割位置中间左右的位置,字符的存在会导致中间左右的位置会有所偏移,因此需要对字符的位置进行校正。对于正常的字符,则不需要调整。
[0014]参阅图3,S500、根据位置信息和计算分割位置,其中;通过每个字符所在的位置,我们就能方便的计算出字符之间的分割位置。具体地,所述的步骤S500中,包括如下步骤:S510、根据位置信息和计算中心位置;S520、记朝向一侧偏移的位置分别为,朝向一侧偏移的位置分别为;S530、计算所有位置处一列像素中空白位置像素的占比,其中;S540、取最大值时所对应的位置即为分割位置。一般来说,两个相邻字符的分割位置位于两个字符之间的位置,为了更准确的挑出中间位置,这里对中间位置以及向中间两侧偏移的多个位置进行像素点计算,如果某一列空白像素点最多,则可认为其是准确的分割位置。
[0015]进一步地,为了使得分割更加准确,这里引入了权重,就不再仅根据比值来确定分割位置了,所述的步骤S540替换为如下步骤:S55本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别的文本字符分割方法,其特征在于:包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;S500、根据位置信息和计算分割位置,其中;S600、根据行首位置、行尾位置以及步骤S400计算得到的分割位置对该行中的字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。2.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S200中:若连续出现a个置信度均低于设定阈值的索引位置,则判定其为漏识别字符;针对任一字符,记录该字符对应的多个置信度中置信度最大处的索引位置。3.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S300中,根据神经网络LSTM时间长度以及文本检测行尺寸信息进行特征逆计算,将索引位置放大与文本检测行图像变换后的矫正图的尺寸信息形成映射关系,并根据该映射关系将索引位置处理成字符位置信息。4.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S500中,包括如下步骤:S510、根据位置信息和计算中心位置;S520、记朝向一侧偏移的位置分别为,朝向一侧偏移的位置分别为;S530、计算所有位置处一列像素中空白位置像素的占比,其中;S540、取最大值时所对应的位置即为分割位置。5.如权利要求4所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S540替换为如下步骤:S550、为每个位置设定权重,权重由中间向两...

【专利技术属性】
技术研发人员:田辉鲁国峰郭玉刚张志翔
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1