一种字符识别的后处理方法技术

技术编号:2929143 阅读:142 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种字符识别的后处理方法,对初始识别之后的错误内容进行自动纠正处理。首先,识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度。而后,将候选字符相似度与预定阈值相比较确定被误识的字符。对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值。最后,用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。本发明专利技术在选取候选字符时考虑的因素更合理,保证了纠正过程的准确性,提高了识别率和识别速度。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理领域的后处理技术,尤其涉及一种对识别后的错字进行纠正的方法。
技术介绍
后处理是OCR(光学字符识别)技术应用的一个重要环节,目前OCR文字识别结果中总有误识的字符存在,后处理算法的应用在一定程度上纠正了识别错误的字符。对于识别后出现的错字传统上采用作标记的办法,标记出来后依赖于人工进行纠正处理。因而不能进行自动处理,由此对于批量处理识别结果的工作人员来说,工作量是非常大的。现有技术中还有另外一种方法,如文献“一种基于字词结合的汉字识别上下文处理新方法”(清华电子工程系智能技术与系统国家重点实验室,作者丁晓青等)中所述的方法,首先通过识别得到识别结果,而后对于错误识别的汉字,在其候选字列表中查找可以跟后面正确的字组成词语的字,如果找到了,就选择这个候选字,如果没找到,则选择第一个候选字。该方法提供了词语选择,可以达到半自动的处理效果。这种方法的优点在于,根据逻辑来组词可以在一定程度上准确地选择正确的候选字。缺陷在于,依靠组词来选择候选字,忽略了词语的词频信息和词语的长度信息,缺乏一定的可靠性。
技术实现思路
针对现有技术中进行字符识别后处理时纠正错字的效率和准确度不高的问题,本专利技术的目的是提供一种通过对识别结果中误识字符的所有候选字符进行组词判断来自动选出正确字符的方法。本专利技术提供,包括以下步骤识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度;将候选字符相似度与预定阈值相比较确定被误识的字符;对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值;用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。上述方法中,形成至少包含所述候选字符的搜索词进一步包括用所述误识字符的一个候选字符取代其位置,与所述误识字符的前后字符组成搜索词形成至少包含所述候选字符的搜索词。上述方法中,形成至少包含所述候选字符的搜索词进一步包括如果在已知的文本数据库中搜索到了所述搜索词,则在搜索词上增加一个相邻字符,加长搜索词直到获得在已知文本数据库中可以搜索到的最长的搜索词。上述用来计算权值的至少一种测量值可以是搜索词的词长、词频和其中各个字符的相似度三种测量值中的至少一种。上述方法中,用如下公式计算搜索词的权值Pwi=an2-bD+f,这里Wi表示一个误识字符的候选字符,n、f和D分别表示包含Wi的搜索词的词长、词频和词语相似度,并且a和b是大于0的系数。上述方法中,词语相似度D=d1’+d2’+…+di+…+dn’;这里di表示候选字符Wi的相似度,d’表示所述搜索词中Wi左右各个字符的相似度。上述比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符进一步包括如果第一权值是所有搜索词的权值中最大的,就将第一权值对应的候选字符确定为所述误识字符位置上的正确字符。上述比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符进一步包括如果第一权值和第二权值相同而且都是搜索词的权值中最大的,那么判断第一搜索词中与第一候选字符成词的字符能否与相邻的另一个字符成词,如果能成词就选取第二权值对应的第二搜索词所包含的第二候选字符。上述方法中,如果第一和第二两个搜索词中与第一和第二候选字符成词的字符都与相邻的另一个字符不成词,就拿与第一候选字符成词的字符的相似度和与第二候选字符成词的字符的相似度作比较,选取相似度好的字符所在的搜索词,也就是选取了这个搜索词所包含的候选字符。上述方法中,如果与第一候选字符成词的字符的相似度和与第二候选字符成词的字符的相似度相同,就以第一候选字符的相似度和第二候选字符的相似度作比较,选取相似度好的候选字符。本专利技术的实施方案具有很多优点和进步。采用本专利技术所述的后处理方法可以根据逻辑组词,准确纠正误识字符,算法简单易行。另外,选取候选字符时考虑的因素更合理,保证了纠正过程的准确性。可以连续纠正相邻的几个不正确的字,提高识别率和识别速度。对初始识别之后的错误内容进行自动纠正处理,减少了人工工作量,同时减少了人工后期检查性的干预,提高可靠性和工作效率。附图说明图1是按照本专利技术实施例的字符识别装置的结构示意图。图2是图1的字符识别装置所执行的字符识别过程的流程图。图3是权值公式中各个量测量过程的流程图。图4是误识字符的确定结果的范例。具体实施例方式下面结合说明书附图来说明本专利技术的具体实施方式。图1示出按照本专利技术的实施例用来将打印文档或手写文档转换成文本数据的字符识别装置。因为OCR识别装置可能对文档中的某些字符不能准确识别,所以本实施例引入一种后处理装置以便从推荐的多个候选字符中确定正确的字符,从而提高识别率。在图1中,字符识别装置包括图像输入单元11,它可以是扫描仪、传真机或数码相机等图像输入装置,还包括图像数据存储单元12、版面分析单元13、预处理单元14、OCR识别单元15、后处理单元16、识别结果存储单元17和文本数据输出单元18。其中,图像输入单元11用于输入打印文档或手写文档作为图像数据;图像数据存储单元12用于以位映像形式存储由图像输入单元11读取的图像数据;版面分析单元13用于将图像数据划分成具有不同符号的区域,比如字符区域、图形区域、公式区域等等;预处理单元14用于对所划分的字符区域进行行列切分,逐个提取单个字符的图像数据;OCR识别单元15用于将提取的图像数据转换为待选的文本字符,并且生成表示各个待选的文本字符与对应的图像数据匹配程度的数值;后处理单元16用于校正被OCR识别单元15错误识别的文本数据,OCR识别单元15生成由后处理单元123确定的最为可信的文本数据的数据文档;而识别结果存储单元17用来存储由OCR识别单元122获得的识别结果;文本数据输出单元18用来输出已被转换成文本数据的文档数据。后处理单元16包括中央控制模块160、搜索模块161、文本数据存储模块162和存储模块163。其中,中央控制模块160用于分析识别结果存储单元17中所存储的初始识别结果从而确定被错误识别的字符,用于根据权值公式计算误识字符各个侯选字符对应的权值,并将与一个误识字符相关的所有权值作比较以确定最佳候选字符,而且还用于管理后处理单元16中的其他模块;搜索模块161响应中央控制模块160给定的搜索词,在事先已转换成文本数据的文档数据或事先收集形成的文本数据资料库中进行搜索,并将搜索词在整个文档或整个资料库中出现的次数送回中央控制模块160;文本数据存储模块162用于保存事先已转换成文本数据的文档数据或事先收集形成的文本数据资料库;存储模块163用于存储中央控制模块160处理的中间结果。接着参照图2描述具有上述结构的字符识别装置的操作,图2示出在扫描打印文档的情况下,由本实施例的字符识别装置执行的整个过程的流程图。在步骤201中,准备识别样张,由图像输入单元11扫描打印文档,并存储到图像数据存储单元12上。通过用户指定所存储的上述图像数据文件而开始进行文本数据转换。在步骤202中版面分析单元13获得这个图像数据文件,并将图像数据划分成不同的区域,诸如图像区域、图形区域、字符区域等等,然后将字符区域的位置信息发送给预处本文档来自技高网...

【技术保护点】
一种字符识别的后处理方法,包括以下步骤:识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度;将候选字符相似度与预定阈值相比较确定被误识的字符;对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所 述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值;用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。

【技术特征摘要】

【专利技术属性】
技术研发人员:杜鹏飞康凯徐剑波
申请(专利权)人:北大方正集团有限公司北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1