A character recognition device, method and program capable of efficiently reducing the rate of misreading while suppressing the reduction of the positive reading rate, and reducing the amount of computation required to give up judgment. A set of decisions (109, 113) based on various indexes are serially combined under the high independence of the abandonment values, and the combination is carried out in a case where the independence of the rejected values is low. Abandon index with high abandonment rate and abandon index with low calculation cost are arranged in the prophase of treatment. The character recognition unit (106) identifies characters in the image of each character unit cut by the character cut section (105). Multiple discard values (107, 108, 110~112) compute the discard value (107, 108) of the higher the ability to discard, the earlier the configuration. When a decision is determined to be discarded, based on the calculated discard value based on the prior abandonment value, the drop value is calculated after omitting the discard value, thereby determining whether or not the recognition result is discarded.
【技术实现步骤摘要】
字符识别装置及方法
本专利技术涉及字符识别装置及方法、字符识别程序,尤其涉及具有组合了多个舍弃值的舍弃判定方式的光学式字符识别装置及方法、字符识别程序。另外,本实施例在字符识别的技术中尤其还涉及舍弃的技术。
技术介绍
本
涉及光学式字符识别(OCR:OpticalCharacterRecognition;光学字符识别)装置。OCR装置通过扫描仪等读取纸类文件,并识别图像中的文字和/或符号,由此,通过代码化成Unicode(统一码)等来进行电子化。OCR装置在一般企业、自治机构、金融机构、医疗机构、教育机构等中,用于会计票据、缴纳完成通知书、工资报告单、订单、成批转账单、医疗费用明细、答题纸等的电子化。另外,面向一般用户时,在基于移动电话进行的字符识别、便签等一般文件中的字符识别中使用。简略地说明基于OCR装置的文件电子化的处理流程。图6是用于说明基于字符识别装置的文件电子化的流程图。首先,进行基于扫描仪等的文件图像化、二值化和噪声处理等的前处理。由此,例如能够得到图6的附图标记601那样的二值的文件图像。接下来,通过基于OCR装置进行的、图表位置和/或文件段落构造等的布局分析和字符串提取,而得到例如图6的附图标记602那样的字符串图像。之后,OCR装置通过字符切取而从字符串图像中切取字符单位的图像,然后,识别各个图像中的字符。从文件的图像化到字符串提取为止的处理例如在专利文件1、专利文献2中有所记载。另外,到从字符串图像中识别各个字符为止的处理例如在专利文献3、非专利文献1、非专利文献2中有所记载。本技术涉及各个字符图像的识别技术。以下,简单说明对各 ...
【技术保护点】
一种字符识别装置,其特征在于,具有:多个舍弃值计算部,其基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值;和一个或多个舍弃判定部,其基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃,使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中。
【技术特征摘要】
2012.12.07 JP 2012-2685491.一种字符识别装置,其特征在于,具有:多个舍弃值计算部,其基于预先设定的舍弃函数对从输入图像而识别的字符的识别结果计算舍弃值;和一个或多个舍弃判定部,其基于由多个所述舍弃值计算部的某一个或某些个计算出的一个或多个舍弃值,分别判定是否将所述识别结果舍弃,使用基于多个所述舍弃值计算部的相关性而组合的多个所述舍弃值计算部,所述舍弃判定部基于多个舍弃值来进行所述识别结果的舍弃判定,并将判定为舍弃的所述识别结果舍弃,由此,将没有判定为舍弃的所述识别结果保存在存储部中或显示在显示部中。2.根据权利要求1所述的字符识别装置,其特征在于,在基于在先的所述舍弃值计算部所计算出的舍弃值而判定为舍弃的情况下,跳过由在后的所述舍弃值计算部进行的舍弃值的计算。3.根据权利要求1所述的字符识别装置,其特征在于,构成为越是舍弃能力或舍弃率高的计算舍弃值的所述舍弃值计算部,越在先配置地进行计算处理。4.根据权利要求1所述的字符识别装置,其特征在于,构成为将对多个舍弃值中独立性较高的舍弃值进行计算的所述舍弃值计算部串行配置来进行计算处理。5.根据权利要求1所述的字符识别装置,其特征在于,构成为将对多个舍弃值中独立性较低的舍弃值进行计算的所述舍弃值计算部并行配置来进行计算处理。6.根据权利要求1所述的字符识别装置,其特征在于,构成为将对多个舍弃值中独立性较高的舍弃值进行计算的所述舍弃值计算部串行配置,且将对多个舍弃值中独立性较低的舍弃值进行计算的所述舍弃值计算部并行配置,从而进行计算处理。7.根据权利要求1所述的字符识别装置,其特征在于,所述舍弃函数是以相对于希望舍弃的所述识别结果而取高值、相对于不希望舍弃的所述识别结果而取低值的方式来计算舍弃值的函数。8.根据权利要求1所述的字符识别装置,其特征在于,具有:预先集合了希望舍弃的图像样本的舍弃图像数据库;和预先集合了希望正确读取的图像样本的正读图像数据库,所述字符识别装置以使基于所述正读图像数据库的舍弃率较小、使基于所述舍弃图像数据库的舍弃率较大的方式,决定用于与舍弃值比较来进行舍弃判定的一个或多个阈值。9.根据权利要求1所述的字符识别装置,其特征在于,基于舍弃能力或舍弃率的高低和舍弃值计算成本而得到的舍弃效率越高的所述舍弃值计算部,越在先配置,在所述舍弃判定部基于在先的所述舍弃值计算部所计算出的舍弃值而判定为舍弃的情况下,省略基于在后的所述舍弃值计算部所进行...
【专利技术属性】
技术研发人员:三好利升,新庄广,永崎健,堤庸昂,
申请(专利权)人:株式会社日立信息通信工程,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。