一种权重式语义关联性后验的非显著性文字识别方法及装置制造方法及图纸

技术编号:36385028 阅读:65 留言:0更新日期:2023-01-18 09:47
本发明专利技术提出了一种权重式语义关联性后验的非显著性文字识别方法及装置,涉及文字识别技术领域。该方法包括:利用预选文字识别方法对待识别文本图像进行识别,待识别文本图像中无法识别的部分为非显著性文字。利用预选文字识别方法对增强后的非显著性文字进行文字识别,若成功识别,则得到非显著性文字识别结果。若不能成功识别,则截取邻近非显著性文字的预设数量个文字的区域,并利用非显著性文字与文字的语义关联性对非显著性文字进行预测,以得到预测结果。重复上述步骤,以得到多个预测结果。按照预设权重,对多个预测结果分别进行加权,得到非显著性文字最后识别结果。从而实现较为准确对非显著性文字进行识别的目的。较为准确对非显著性文字进行识别的目的。较为准确对非显著性文字进行识别的目的。

【技术实现步骤摘要】
一种权重式语义关联性后验的非显著性文字识别方法及装置


[0001]本专利技术涉及文字识别
,具体而言,涉及一种权重式语义关联性后验的非显著性文字识别方法及装置。

技术介绍

[0002]在信息时代,海量的合同、协议等文件经常以图片的形式进行存储、传输,并非常广泛地应用于金融、商业、法律等多个领域,发挥了重要的作用。我们能够非常方便地对图像中的文本内容进行阅读,但不能方便地对图像文本进行编辑。如何将目标文字从图像中识别出来成为了一项非常有意义的工作,且传统的方法已经可以较为准确地识别出图片中的文字。
[0003]然而在某些情况下,图片中的部分文字不能够被理想地展示出来,倾斜、噪声显著、部分缺失、光照影响都会使得文字成为非显著性文字。对于非显著性文字,传统的识别方法往往不能较为准确地将它们进行识别,降低了文本图像的实际应用价值。

技术实现思路

[0004]本专利技术的目的在于提供一种权重式语义关联性后验的非显著性文字识别方法及装置,用以改善现有技术中不能较为准确地识别文本图像中的非显著性文字,进而降低了文本图像的实际应用价值。
[0005]本专利技术的实施例是这样实现的:
[0006]第一方面,本申请实施例提供一种权重式语义关联性后验的非显著性文字识别方法,其包括如下步骤:步骤S110:获取待识别文本图像,利用霍夫变换对待识别文本图像进行倾斜校正。步骤S120:利用预选文字识别方法对待识别文本图像进行文字识别,其中,待识别文本图像中无法识别的部分为非显著性文字。步骤S130:利用小波去噪方法对非显著性文字进行噪声去除,再利用小波多尺度图像增强方法对非显著性文字进行增强。步骤S140:利用预选文字识别方法对增强后的非显著性文字进行文字识别,若成功识别,则得到非显著性文字识别结果。步骤S150:若不能成功识别,则截取邻近非显著性文字的预设数量个文字的区域,并利用非显著性文字与文字的语义关联性对非显著性文字进行预测,以得到预测结果。步骤S160:重复步骤S150,以得到多个预测结果,其中,每次执行步骤S150时,调整预设数量。步骤S170:按照预设权重,对多个预测结果分别进行加权,以得到非显著性文字最后识别结果。
[0007]在本专利技术的一些实施例中,上述步骤S160包括以下步骤:截取邻近非显著性文字的4个文字的区域,利用非显著性文字与4个文字的语义关联性对非显著性文字进行预测,以得到第一预测结果。截取邻近非显著性文字的6个文字的区域,利用非显著性文字与6个文字的语义关联性对非显著性文字进行预测,以得到第二预测结果。截取邻近非显著性文字的8个文字的区域,利用非显著性文字与8个文字的语义关联性对非显著性文字进行预测,以得到第三预测结果。截取邻近非显著性文字的10个文字的区域,利用非显著性文字与
10个文字的语义关联性对非显著性文字进行预测,以得到第四预测结果。截取邻近非显著性文字的12个文字的区域,利用非显著性文字与12个文字的语义关联性对非显著性文字进行预测,以得到第五预测结果。
[0008]在本专利技术的一些实施例中,上述步骤S170包括:第一预测结果的权重、第二预测结果的权重、第三预测结果的权重、第四预测结果的权重及第五预测结果的权重依次递减。
[0009]在本专利技术的一些实施例中,上述步骤S150之前,该方法还包括:收集多个文字样本。查询所有文字样本中不同文字的联合出现次数,并根据联合出现次数计算不同文字的联合出现概率。根据不同文字的联合出现概率对非显著性文字进行预测。
[0010]在本专利技术的一些实施例中,上述查询所有文字样本中不同文字的联合出现次数,并根据联合出现次数计算不同文字的联合出现概率的步骤包括:统计第一预设数量内不同文字的第一联合次数,并根据第一联合次数计算第一联合概率。统计第二预设数量内不同文字的第二联合次数,并根据第二联合次数计算第二联合概率。根据第一联合概率和第二联合概率对非显著性文字进行预测。
[0011]在本专利技术的一些实施例中,上述步骤S170包括如下步骤:根据待识别文本图像的类别,确定预设权重。
[0012]在本专利技术的一些实施例中,上述预选文字识别方法至少包括Single

shot text detector。
[0013]第二方面,本申请实施例提供一种权重式语义关联性后验的非显著性文字识别装置,其包括:倾斜校正模块,用于获取待识别文本图像,利用霍夫变换对待识别文本图像进行倾斜校正。待识别文本图像识别模块,用于利用预选文字识别方法对待识别文本图像进行文字识别,其中,待识别文本图像中无法识别的部分为非显著性文字。非显著性文字增强模块,用于利用小波去噪方法对非显著性文字进行噪声去除,再利用小波多尺度图像增强方法对非显著性文字进行增强。非显著性文字识别模块,用于利用预选文字识别方法对增强后的非显著性文字进行文字识别,若成功识别,则得到非显著性文字识别结果。非显著性文字预测模块,用于若不能成功识别,则截取邻近非显著性文字的预设数量个文字的区域,并利用非显著性文字与文字的语义关联性对非显著性文字进行预测,以得到预测结果。多次预测模块,用于重复执行非显著性文字预测模块,以得到多个预测结果,其中,每次执行非显著性文字预测模块时,调整预设数量。非显著性文字最后识别模块,用于按照预设权重,对多个预测结果分别进行加权,以得到非显著性文字最后识别结果。
[0014]在本专利技术的一些实施例中,上述多次预测模块包括:第一预测单元,用于截取邻近非显著性文字的4个文字的区域,利用非显著性文字与4个文字的语义关联性对非显著性文字进行预测,以得到第一预测结果。第二预测单元,用于截取邻近非显著性文字的6个文字的区域,利用非显著性文字与6个文字的语义关联性对非显著性文字进行预测,以得到第二预测结果。第三预测单元,用于截取邻近非显著性文字的8个文字的区域,利用非显著性文字与8个文字的语义关联性对非显著性文字进行预测,以得到第三预测结果。第四预测单元,用于截取邻近非显著性文字的10个文字的区域,利用非显著性文字与10个文字的语义关联性对非显著性文字进行预测,以得到第四预测结果。第五预测单元,用于截取邻近非显著性文字的12个文字的区域,利用非显著性文字与12个文字的语义关联性对非显著性文字进行预测,以得到第五预测结果。
[0015]在本专利技术的一些实施例中,上述非显著性文字最后识别模块包括:权重赋值单元,用于第一预测结果的权重、第二预测结果的权重、第三预测结果的权重、第四预测结果的权重及第五预测结果的权重依次递减。
[0016]在本专利技术的一些实施例中,上述权重式语义关联性后验的非显著性文字识别装置还包括:文字样本收集模块,用于收集多个文字样本。联合出现概率计算模块,用于查询所有文字样本中不同文字的联合出现次数,并根据联合出现次数计算不同文字的联合出现概率。联合出现概率预测模块,用于根据不同文字的联合出现概率对非显著性文字进行预测。
[0017]在本专利技术的一些实施例中,上述联合出现概率计算模块包括:第一联合概率计算单元,用于统计第一预设数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种权重式语义关联性后验的非显著性文字识别方法,其特征在于,包括如下步骤:步骤S110:获取待识别文本图像,利用霍夫变换对所述待识别文本图像进行倾斜校正;步骤S120:利用预选文字识别方法对所述待识别文本图像进行文字识别,其中,所述待识别文本图像中无法识别的部分为非显著性文字;步骤S130:利用小波去噪方法对非显著性文字进行噪声去除,再利用小波多尺度图像增强方法对非显著性文字进行增强;步骤S140:利用所述预选文字识别方法对增强后的所述非显著性文字进行文字识别,若成功识别,则得到非显著性文字识别结果;步骤S150:若不能成功识别,则截取邻近所述非显著性文字的预设数量个文字的区域,并利用所述非显著性文字与所述文字的语义关联性对所述非显著性文字进行预测,以得到预测结果;步骤S160:重复所述步骤S150,以得到多个预测结果,其中,每次执行所述步骤S150时,调整所述预设数量;步骤S170:按照预设权重,对多个所述预测结果分别进行加权,以得到非显著性文字最后识别结果。2.根据权利要求1所述的权重式语义关联性后验的非显著性文字识别方法,其特征在于,所述步骤S160包括以下步骤:截取邻近所述非显著性文字的4个文字的区域,利用所述非显著性文字与4个所述文字的语义关联性对所述非显著性文字进行预测,以得到第一预测结果;截取邻近所述非显著性文字的6个文字的区域,利用所述非显著性文字与6个所述文字的语义关联性对所述非显著性文字进行预测,以得到第二预测结果;截取邻近所述非显著性文字的8个文字的区域,利用所述非显著性文字与8个所述文字的语义关联性对所述非显著性文字进行预测,以得到第三预测结果;截取邻近所述非显著性文字的10个文字的区域,利用所述非显著性文字与10个所述文字的语义关联性对所述非显著性文字进行预测,以得到第四预测结果;截取邻近所述非显著性文字的12个文字的区域,利用所述非显著性文字与12个所述文字的语义关联性对所述非显著性文字进行预测,以得到第五预测结果。3.根据权利要求2所述的权重式语义关联性后验的非显著性文字识别方法,其特征在于,所述步骤S170包括:所述第一预测结果的权重、所述第二预测结果的权重、所述第三预测结果的权重、所述第四预测结果的权重及所述第五预测结果的权重依次递减。4.根据权利要求1所述的权重式语义关联性后验的非显著性文字识别方法,其特征在于,所述步骤S150之前,还包括:收集多个文字样本;查询所有所述文字样本中不同文字的联合出现次数,并根据所述联合出现次数计算不同文字的联合出现概率;根据不同文字的...

【专利技术属性】
技术研发人员:吴昊
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1