【技术实现步骤摘要】
字符识别方法和装置
本专利技术涉及图文处理
,具体地,涉及一种字符识别方法和装置。
技术介绍
目前,OCR(OpticalCharacterRecognition,光学字符识别)是当前比较常用的基于图像的字符识别技术,该技术是采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。随着OCR技术的不断成熟,其应用范围也越来越广泛。但是,现有的OCR技术在识别图像中的字母和数字时容易将二者混淆,影响字符识别的准确率。
技术实现思路
本专利技术提供一种字符识别方法和装置,用于解决现有的基于图像的字符识别技术中字母和数字容易混淆的问题。为了实现上述目的,本专利技术提供一种字符识别方法,所述方法包括:对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。可选的,所述通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括:通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;当查找到所述目 ...
【技术保护点】
一种字符识别方法,其特征在于,所述方法包括:对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。
【技术特征摘要】
1.一种字符识别方法,其特征在于,所述方法包括:对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;确定所述第一识别结果中与预定义的关键词匹配的目标字符;根据所述目标字符所匹配的关键词所属的分类,识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一识别结果中与预定义的关键词匹配的目标字符,包括:通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;根据所述目标字符所匹配的关键词所属的分类,识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括:当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。3.根据权利要求2所述的方法,其特征在于,所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符,包括:对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。4.根据权利要求3所述的方法,其特征在于,所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;所述当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符包括:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。5.根据...
【专利技术属性】
技术研发人员:王磊,麦涛,张旭,张明亮,齐勇,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。