光学字符识别后处理的方法、装置及计算机可读存储介质制造方法及图纸

技术编号:20867737 阅读:36 留言:0更新日期:2019-04-17 09:35
本发明专利技术提供了一种光学字符识别后处理的方法、装置及计算机可读存储介质,本发明专利技术实施例基于单个字符的后验概率评估,可以有效的去除OCR识别结果中的噪音字符/错误字符,减少最终人工参与修正确认的次数,从而改善OCR的识别性能。另外,本发明专利技术还可以对多个OCR识别结果进行融合,使得后处理输出的结果可以包含更多正确字符的同时,去除噪音字符/错误字符干扰。另外,本发明专利技术还可以通过在线更新的方式更新字典,有助于实现OCR识别处理的自我完善,进一步提升OCR识别性能。

【技术实现步骤摘要】
光学字符识别后处理的方法、装置及计算机可读存储介质
本专利技术涉及光学字符识别(OCR,OpticalCharacterRecognition)
,具体涉及一种光学字符识别后处理的方法、装置及计算机可读存储介质。
技术介绍
在人工智能领域里,OCR一直占据着重要的位置,它提供了一种便捷的从外部采集数据的手段。除了传统的文档识别,OCR技术还被广泛的运用到其它方面,比如药盒药品注册管理(提取药盒上印刷的药品名称),信封地址识别,身份证信息采集,电影票名称识别等。在这些应用系统里,尽管OCR只占据了比较小的部分,但其所涉及的待识别的字符集通常也是比较大的字符集。上述应用系统通常直接采用成熟的商业OCR引擎或者开源的OCR算法来执行对应的OCR识别任务,而不是针对性的开发一个新的OCR引擎。然而,由于被识别的对象的字体的多样性,且大小不一,同时受背景图案的干扰,同传统的文档识别相比,诸如药盒识别这样的应用系统的识别结果的正确率较低。另外,由于每个OCR引擎/算法通常都有自己的适用条件,其性能在一些具有挑战性的环境下未必很好。一个典型的现象就是,在这些环境下OCR输出的字符串长度通常都大于实际的字符串长度,其原因在于OCR识别的字符串中就包含了被错误识别出的字符和由于字符分割错误或背景干扰引入的噪音字符。例如,采用开源引擎TesseractOCR来识别药盒名称,其正确字符识别率为75.9%,平均的编辑距离是0.505204,这就意味着对于长度为10个字符的药盒名,大约只有7.5个字符能被正确识别出来,需要人工参与修改和更正至少5次操作(删除错误字符和插入新的缺失字符操作)才能完成药品名称的正确采集。
技术实现思路
本专利技术实施例要解决的技术问题是提供一种光学字符识别后处理的方法、装置及计算机可读存储介质,可以有效去除OCR识别结果中的噪音字符和/或错误字符,提升OCR的识别性能。为解决上述技术问题,本专利技术实施例提供的光学字符识别后处理的方法,包括:获取光学字符识别得到的第一字符串;对所述第一字符串进行第一迭代减字分解处理,构造第一树状结构,并生成包括第一树状结构各节点的字符串的第一字符串集合;针对所述第一字符串的每个字符,确定所述第一字符串集合中包含有所述字符的第一类字符串,并根据一预先生成的字典中记录的所述第一类字符串的出现频次,计算得到所述字符的后验概率,其中,所述字符的后验概率与所述第一类字符串的出现频次正相关;根据所述后验概率,对所述第一字符串中去噪/去错处理,得到第二字符串;其中,所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构,所述第一树状结构中:各个节点均为互不相同的字符串,根节点的字符串为所述待分解处理的字符串,子节点的字符串为上一级父节点的字符串去除一个字符,且保持剩余字符的排序不变所得到的;且若一个节点的字符串存在于所述字典中,或该节点的字符串的长度等于预设长度,则该节点为叶子节点。本专利技术实施例还提供了一种光学字符识别的后处理装置,包括:第一获取单元,用于获取光学字符识别得到的第一字符串;第一分解单元,用于对所述第一字符串进行第一迭代减字分解处理,构造第一树状结构,并生成包括第一树状结构各节点的字符串的第一字符串集合;概率计算单元,用于针对所述第一字符串的每个字符,确定所述第一字符串集合中包含有所述字符的第一类字符串,并根据一预先生成的字典中记录的所述第一类字符串的出现频次,计算得到所述字符的后验概率,其中,所述字符的后验概率与所述第一类字符串的出现频次正相关;去噪处理单元,用于根据所述后验概率,对所述第一字符串中去噪/去错处理,得到第二字符串;其中,所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构,所述第一树状结构中:各个节点均为互不相同的字符串,根节点的字符串为所述待分解处理的字符串,子节点的字符串为上一级父节点的字符串去除一个字符,且保持剩余字符的排序不变所得到的;且若一个节点的字符串存在于所述字典中,或该节点的字符串的长度等于预设长度,则该节点为叶子节点。本专利技术实施例还提供了一种光学字符识别的后处理装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的光学字符识别的后处理方法的步骤。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的光学字符识别的后处理方法的步骤。与现有技术相比,本专利技术实施例提供的光学字符识别后处理的方法、装置及计算机可读存储介质,以贝叶斯后验概率估计理论为依托,基于单个字符的后验概率评估,有效的去除OCR识别结果中的噪音字符/错误字符,减少最终人工参与修正确认的次数,从而改善OCR的识别性能。另外,本专利技术实施例还可以对多个OCR识别结果进行融合,使得后处理输出的结果可以包含更多的正确字符的同时,去除噪音字符/错误字符干扰。另外,本专利技术实施例还可以通过在线更新的方式更新字典,有助于实现OCR识别处理的自我完善,进一步提升OCR识别性能。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的光学字符识别后处理的方法的一种流程示意图;图2为本专利技术实施例提供的迭代减字分解处理的一个具体示例图;图3为本专利技术实施例的光学字符识别后处理的方法的另一种流程示意图;图4为本专利技术实施例的光学字符识别的后处理装置的一种结构示意图;图5为本专利技术实施例的光学字符识别的后处理装置的另一种结构示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本专利技术的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本专利技术的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本专利技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。在本专利技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。如
技术介绍
中所述的,现有OCR引擎输出的识别结果中通常存在着噪音字符/错误字符。本专利技术实施例提供了一种光学字符识别后处理的方法,基于单个字符的后验概率,可以有效的去除OCR识别结果中的噪音字符/错误字符的干扰,减少最终人工参与修正确认的次数,从而改善OCR的识别性能。本专利技术实施例可以应用于传统的文档识别,除此之外,本专利技术实施例尤其适用于诸如药盒药品注册管理(提取药盒上印刷的药品名称),信封地址识别,身份证信息采集,票据本文档来自技高网
...

【技术保护点】
1.一种光学字符识别后处理的方法,其特征在于,包括:获取光学字符识别得到的第一字符串;对所述第一字符串进行第一迭代减字分解处理,构造第一树状结构,并生成包括第一树状结构各节点的字符串的第一字符串集合;针对所述第一字符串的每个字符,确定所述第一字符串集合中包含有所述字符的第一类字符串,并根据一预先生成的字典中记录的所述第一类字符串的出现频次,计算得到所述字符的后验概率,其中,所述字符的后验概率与所述第一类字符串的出现频次正相关;根据所述后验概率,对所述第一字符串中去噪/去错处理,得到第二字符串;其中,所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构,所述第一树状结构中:各个节点均为互不相同的字符串,根节点的字符串为所述待分解处理的字符串,子节点的字符串为上一级父节点的字符串去除一个字符,且保持剩余字符的排序不变所得到的;且若一个节点的字符串存在于所述字典中,或该节点的字符串的长度等于预设长度,则该节点为叶子节点。

【技术特征摘要】
1.一种光学字符识别后处理的方法,其特征在于,包括:获取光学字符识别得到的第一字符串;对所述第一字符串进行第一迭代减字分解处理,构造第一树状结构,并生成包括第一树状结构各节点的字符串的第一字符串集合;针对所述第一字符串的每个字符,确定所述第一字符串集合中包含有所述字符的第一类字符串,并根据一预先生成的字典中记录的所述第一类字符串的出现频次,计算得到所述字符的后验概率,其中,所述字符的后验概率与所述第一类字符串的出现频次正相关;根据所述后验概率,对所述第一字符串中去噪/去错处理,得到第二字符串;其中,所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构,所述第一树状结构中:各个节点均为互不相同的字符串,根节点的字符串为所述待分解处理的字符串,子节点的字符串为上一级父节点的字符串去除一个字符,且保持剩余字符的排序不变所得到的;且若一个节点的字符串存在于所述字典中,或该节点的字符串的长度等于预设长度,则该节点为叶子节点。2.如权利要求1所述的方法,其特征在于,在所述获取光学字符识别得到的第一字符串的步骤之前,所述方法还包括:针对一样本集合中的每个字符串样本,分别进行第二迭代减字分解处理,构造一个第二树状结构;根据所述第二树状结构的各个节点的字符串,确定所述字典中包括的字符串,并根据包含有同一字符串的所有第二树状结构的数量,在所述字典中记录该字符串的出现频次;其中,所述第二迭代减字分解处理是针对所述字符串样本构造第二树状结构,所述第二树状结构中:各个节点均为互不相同的字符串,根节点的字符串为所述字符串样本;子节点的字符串为上一级父节点的字符串去除一个字符,且保持剩余字符的排序不变所得到的;且所述第二树状结构中的叶子节点的字符串的长度为预设长度。3.如权利要求1所述的方法,其特征在于,在得到第二字符串的步骤之后,所述方法还包括:获取所述第二字符串经人工校正处理后得到的第三字符串;将所述第三字符串添加至所述样本集合中,并根据更新后的样本集合,更新所述字典包括的字符串及其出现频次。4.如权利要求1所述的方法,其特征在于,所述根据一预先生成的字典中记录的所述第一类字符串的出现频次,计算得到所述第一字符串的每个字符的后验概率的步骤,包括:对第一类字符串中的所有字符串的出现频次,进行加权求和,获得所述字符对应的频次和值,其中,每个字符串的权值与该字符串的长度正相关;对所述频次和值进行归一化处理,得到该字符的后验概率。5.如权利要求1所述的方法,其特征在于,所述根据所述后验概率,对所述第一字符串中去噪/去错处理,得到第二字符串的步骤,包括:从所述第一字符串中去除后验概率低于预设阈值的字符,得到第二字符串。6.如权利要求1所述的方法,其特征在于,所述获取光学字符识别得到的第一字符串的步骤,包括:获...

【专利技术属性】
技术研发人员:熊怀欣
申请(专利权)人:株式会社理光
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1