光学字符识别后处理的方法、装置及计算机可读存储介质制造方法及图纸

技术编号：20867737 阅读：36 留言：0更新日期：2019-04-17 09:35

本发明专利技术提供了一种光学字符识别后处理的方法、装置及计算机可读存储介质，本发明专利技术实施例基于单个字符的后验概率评估，可以有效的去除OCR识别结果中的噪音字符/错误字符，减少最终人工参与修正确认的次数，从而改善OCR的识别性能。另外，本发明专利技术还可以对多个OCR识别结果进行融合，使得后处理输出的结果可以包含更多正确字符的同时，去除噪音字符/错误字符干扰。另外，本发明专利技术还可以通过在线更新的方式更新字典，有助于实现OCR识别处理的自我完善，进一步提升OCR识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
光学字符识别后处理的方法、装置及计算机可读存储介质
本专利技术涉及光学字符识别(OCR，OpticalCharacterRecognition)
，具体涉及一种光学字符识别后处理的方法、装置及计算机可读存储介质。
技术介绍
在人工智能领域里，OCR一直占据着重要的位置，它提供了一种便捷的从外部采集数据的手段。除了传统的文档识别，OCR技术还被广泛的运用到其它方面，比如药盒药品注册管理(提取药盒上印刷的药品名称)，信封地址识别，身份证信息采集，电影票名称识别等。在这些应用系统里，尽管OCR只占据了比较小的部分，但其所涉及的待识别的字符集通常也是比较大的字符集。上述应用系统通常直接采用成熟的商业OCR引擎或者开源的OCR算法来执行对应的OCR识别任务，而不是针对性的开发一个新的OCR引擎。然而，由于被识别的对象的字体的多样性，且大小不一，同时受背景图案的干扰，同传统的文档识别相比，诸如药盒识别这样的应用系统的识别结果的正确率较低。另外，由于每个OCR引擎/算法通常都有自己的适用条件，其性能在一些具有挑战性的环境下未必很好。一个典型的现象就是，在这些环境下OCR输出的字符串长度通常都大于实际的字符串长度，其原因在于OCR识别的字符串中就包含了被错误识别出的字符和由于字符分割错误或背景干扰引入的噪音字符。例如，采用开源引擎TesseractOCR来识别药盒名称，其正确字符识别率为75.9％，平均的编辑距离是0.505204，这就意味着对于长度为10个字符的药盒名，大约只有7.5个字符能被正确识别出来，需要人工参与修改和更正至少5次操作(删除错误字符和插入新的...

【技术保护点】
1.一种光学字符识别后处理的方法，其特征在于，包括：获取光学字符识别得到的第一字符串；对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合；针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关；根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串；其中，所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构，所述第一树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述待分解处理的字符串，子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且若一个节点的字符串存在于所述字典中，或该节点的字符串的长度等于预设长度，则该节点为叶子节点。

【技术特征摘要】
1.一种光学字符识别后处理的方法，其特征在于，包括：获取光学字符识别得到的第一字符串；对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合；针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关；根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串；其中，所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构，所述第一树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述待分解处理的字符串，子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且若一个节点的字符串存在于所述字典中，或该节点的字符串的长度等于预设长度，则该节点为叶子节点。2.如权利要求1所述的方法，其特征在于，在所述获取光学字符识别得到的第一字符串的步骤之前，所述方法还包括：针对一样本集合中的每个字符串样本，分别进行第二迭代减字分解处理，构造一个第二树状结构；根据所述第二树状结构的各个节点的字符串，确定所述字典中包括的字符串，并根据包含有同一字符串的所有第二树状结构的数量，在所述字典中记录该字符串的出现频次；其中，所述第二迭代减字分解处理是针对所述字符串样本构造第二树状结构，所述第二树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述字符串样本；子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且所述第二树状结构中的叶子节点的字符串的长度为预设长度。3.如权利要求1所述的方法，其特征在于，在得到第二字符串的步骤之后，所述方法还包括：获取所述第二字符串经人工校正处理后得到的第三字符串；将所述第三字符串添加至所述样本集合中，并根据更新后的样本集合，更新所述字典包括的字符串及其出现频次。4.如权利要求1所述的方法，其特征在于，所述根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述第一字符串的每个字符的后验概率的步骤，包括：对第一类字符串中的所有字符串的出现频次，进行加权求和，获得所述字符对应的频次和值，其中，每个字符串的权值与该字符串的长度正相关；对所述频次和值进行归一化处理，得到该字符的后验概率。5.如权利要求1所述的方法，其特征在于，所述根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串的步骤，包括：从所述第一字符串中去除后验概率低于预设阈值的字符，得到第二字符串。6.如权利要求1所述的方法，其特征在于，所述获取光学字符识别得到的第一字符串的步骤，包括：获...

【专利技术属性】
技术研发人员：熊怀欣，
申请(专利权)人：株式会社理光，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人