字符识别方法和装置制造方法及图纸

技术编号:13426388 阅读:86 留言:0更新日期:2016-07-29 14:38
本发明专利技术公开了一种字符识别方法和装置,涉及图文处理技术领域,该方法包括:通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,并根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。

【技术实现步骤摘要】
字符识别方法和装置
本专利技术涉及图文处理
,具体地,涉及一种字符识别方法和装置。
技术介绍
目前,OCR(OpticalCharacterRecognition,光学字符识别)是当前比较常用的基于图像的字符识别技术,该技术是采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。随着OCR技术的不断成熟,其应用范围也越来越广泛。但是,现有的OCR技术在识别图像中的字母和数字时容易将二者混淆,影响字符识别的准确率。
技术实现思路
本专利技术提供一种字符识别方法和装置,用于解决现有的基于图像的字符识别技术中字母和数字容易混淆的问题。为了实现上述目的,本专利技术提供一种字符识别方法,所述方法包括:对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。可选的,所述通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括:通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。可选的,所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符,包括:对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。可选的,所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;所述当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符包括:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。可选的,所述对目标图像中的目标内容进行第一次字符识别,得到第一识别结果包括:利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。本专利技术还提供一种字符识别装置,所述装置包括:字符识别模块,用于对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;语义分析模块,用于通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;标记模块,用于将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;所述字符识别模块,还用于确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;输出模块,用于根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。可选的,所述语义分析模块包括:匹配子模块,用于通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;分类子模块,用于当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;确定子模块,用于当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;所述确定子模块,还用于当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。可选的,所述匹配子模块,包括:分词子模块,用于对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;查找子模块,用于在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。可选的,所述确定子模块用于:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;所述确定子模块还用于:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。可选的,所述字符识别模块用于:利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。本专利技术提供的字符识别方法和装置,通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:图1是本专利技术实施例提供的一种字符识别方法的流程示意图;图2是本专利技术另一实施例提供的一种字符识别方法的流程示意图;图3是本专利技术一实施例提供的一种字符识别装置的结构框图;图4是图3所示实施例示出的一种语义分析模块的框图;图5是图4所示实施例示出的一种匹配子模块的框图。具体实施方式以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。图1是本专利技术实施例提供的一种字符识别方法的流程示意图,参见图1,该方法可以包括:步骤101,对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。步骤102,通过对第一识别结果进行语义分析以识本文档来自技高网...

【技术保护点】
一种字符识别方法,其特征在于,所述方法包括:对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。

【技术特征摘要】
1.一种字符识别方法,其特征在于,所述方法包括:对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;确定所述第一识别结果中与预定义的关键词匹配的目标字符;根据所述目标字符所匹配的关键词所属的分类,识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一识别结果中与预定义的关键词匹配的目标字符,包括:通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;根据所述目标字符所匹配的关键词所属的分类,识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括:当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。3.根据权利要求2所述的方法,其特征在于,所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符,包括:对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。4.根据权利要求3所述的方法,其特征在于,所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;所述当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符包括:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。5.根据...

【专利技术属性】
技术研发人员:王磊麦涛张旭张明亮齐勇
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1