用于识别图像的方法、装置及电子设备制造方法及图纸

技术编号:35273479 阅读:18 留言:0更新日期:2022-10-19 10:49
本发明专利技术公开了一种用于识别图像的方法、装置及电子设备。该方法包括:获取待识别图像,待识别图像的预定区域中包括由数字组成的字符串;将待识别图像输入预先训练的目标图像识别模型,得到多通道的输出图像,输出图像中的每个通道对应一个预设数字的置信度预测图;基于置信度预测图,确定预设数字在字符串中的位置;基于预设数字在字符串中的位置,将各预设数字组合成字符串的识别结果。无需对待识别图像进行表格线去除、字符切分等预处理即可识别图像中的数字,可以避免预处理过程中的异常情况导致的识别错误,有助于提高识别的准确度和鲁棒性。鲁棒性。鲁棒性。

【技术实现步骤摘要】
用于识别图像的方法、装置及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种用于识别图像的方法、装置及电子设备。

技术介绍

[0002]实践中,学生的日常作业、试卷或智学作文的答题卡中会记录有学生的考号,通常采用智能阅卷系统自动识别其中的考号。
[0003]相关技术中,识别考号的方法主要包括以下两个步骤,第一步是预处理,从日常作业或试卷的图像中分割出组成考号的数字,例如采用Hough变换、单项链、投影等直线检测方法将数字周围的表格线去除,然后再根据直方图投影或连通区域分析等方法,得到数字所在的图像区域并从图像中分割出各个数字;第二步是对分割得到的单个数字进行识别。由于预处理方法中涉及的规则较复杂,导致预处理过程中容易出现异常情况,进而导致识别错误。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种能够提高图像中数字识别准确度和鲁棒性的方法、装置及电子设备。
[0005]为达到上述目的,本专利技术采用以下技术方案:
[0006]第一方面,本专利技术提供了一种用于识别图像的方法,该方法包括:获取待识别图像,待识别图像的预定区域中包括由数字组成的字符串;将待识别图像输入预先训练的目标图像识别模型,得到多通道的输出图像,输出图像中的每个通道对应一个预设数字的置信度预测图;基于置信度预测图,确定预设数字在字符串中的位置;基于预设数字在字符串中的位置,将各预设数字组合成字符串的识别结果。
[0007]在一些实施例中,基于置信度预测图,确定预设数字在字符串中的位置,包括:从输出图像中提取出通道对应的置信度预测图;对置信度预测图进行平滑处理和二值化处理,得到处理后的预测图;对处理后的预测图中的预定区域进行连通区域分析,确定处理后的预测图中的预定区域内的连通域;基于连通域的位置,确定通道对应的预设数字在字符串中的位置。
[0008]在一些实施例中,输出图像包括11个通道,其中,10个通道分别对应数字0至9的置信度预测图,1个通道对应存在涂改痕迹的数字的置信度预测图。
[0009]在一些实施例中,待识别图像为拍摄待识别文本得到的图像,字符串表征待识别文本中的考号。
[0010]在一些实施例中,目标图像识别模型经由如下步骤训练得到:获取样本集,样本集中的样本图像包括至少一个已标记的虚拟样本图像和至少一个已标记的真实样本图像,样本图像中的样本区域内包括样本字符串,虚拟样本图像为基于真实样本图像生成的图像,真实样本图像为拍摄样本文本得到的图像;基于虚拟样本图像,训练预先构建的初始图像
识别模型,得到预训练的图像识别模型;基于真实样本图像,再次训练预训练的图像识别模型,得到目标图像识别模型。
[0011]在一些实施例中,虚拟样本图像通过如下方式生成:从真实样本图像中分割出单个数字图像,并对单个数字图像中的数字进行标记,得到多个样本数字图像;基于样本数字图像,生成样本涂改数字图像;生成初始图像,并在初始图像中确定样本区域,初始图像中的像素点的像素值为0;在样本区域内生成单行表格,表格包括随机数量的单元格;对于每个单元格,随机选取一个样本数字图像叠加到该单元格的区域内;在各个单元格的区域内随机叠加样本涂改数字图像,以生成样本字符串;基于各个单元格的区域中叠加的样本数字图像的标记结果,对样本字符串进行标记,得到虚拟样本图像。
[0012]在一些实施例中,样本涂改数字图像通过如下方式生成:生成初始样本图像,初始样本图像中的像素点的像素值为0;在初始样本图像中随机生成一条或多条直线;随机选取一个样本数字图像叠加到初始样本图像中,得到样本涂改数字图像。
[0013]在一些实施例中,表格通过如下方式生成:随机确定待生成的表格的高度、长度以及单元格的数量;基于待生成的表格的高度、长度以及单元格的数量,确定待绘制的直线;将每个待绘制的直线平均分成预设数量个线段,并为每个线段生成一个随机数;若线段对应的随机数大于预设阈值,则绘制线段,得到表格,线段的线宽为预设笔画宽度与随机扰动之和。
[0014]第二方面,本专利技术提供了一种用于识别图像的装置,该装置包括:图像获取单元,被配置成获取待识别图像,待识别图像的预定区域中包括由数字组成的字符串;图像预测单元,被配置成将待识别图像输入预先训练的目标图像识别模型,得到多通道的输出图像,输出图像中的每个通道对应一个预设数字的置信度预测图;位置确定单元,被配置成基于置信度预测图,确定预设数字在字符串中的位置;结果确定单元,被配置成基于预设数字在字符串中的位置,将各预设数字组合成字符串的识别结果。
[0015]第三方面,本专利技术提供了一种电子设备,包括一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任一实施例中的用于识别图像的方法。
[0016]本专利技术提供的用于识别图像的方法的有益效果为:
[0017]本专利技术提供的方法可以通过目标图像识别模型同时完成待识别图像中字符串的分割和字符串中数字的识别,然后根据目标图像识别模型的输出图像确定各个预设数字在字符串中的位置,并以此组合成字符串的识别结果。无需对待识别图像进行表格线去除、字符切分等预处理即可识别图像中的数字,可以避免预处理过程中的异常情况导致的识别错误,有助于提高识别的准确度和鲁棒性。
附图说明
[0018]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚。
[0019]图1是根据本专利技术的用于识别图像的方法的一个实施例的流程示意图;
[0020]图2是根据本专利技术的用于识别图像的方法的一个实施例中确定预设数字在字符串中的位置的流程示意图;
[0021]图3是根据本专利技术的用于识别图像的方法的一个实施例中训练图像识别模型的流程示意图;
[0022]图4是根据本专利技术的用于识别图像的方法的一个实施例中生成虚拟样本图像的流程示意图;
[0023]图5是根据本专利技术的用于识别图像的装置的一个实施例的示意图。
具体实施方式
[0024]以下基于实施例对本专利技术进行描述,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0025]除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0026]图1示出了根据本专利技术的用于识别图像的方法的一个实施例的流程图100。该流程100包括以下步骤:
[0027]步骤110、获取待识别图像。
[0028]其中,待识别图像的预定区域中包括由数字组成的字符串。
[0029]在本实施例中,待识别图像中的字符串可以表征对象的身份,通常是由手写数字组成的,例如可以是考号、学号或其他类型的数字ID。
[0030]在本实施例的一些可选的实施方式中,待识别图像为拍摄待识别文本得到的图像,字符串本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于识别图像的方法,其特征在于,所述方法包括:获取待识别图像,所述待识别图像的预定区域中包括由数字组成的字符串;将所述待识别图像输入预先训练的目标图像识别模型,得到多通道的输出图像,所述输出图像中的每个通道对应一个预设数字的置信度预测图;基于所述置信度预测图,确定所述预设数字在所述字符串中的位置;基于所述预设数字在所述字符串中的位置,将各所述预设数字组合成所述字符串的识别结果。2.根据权利要求1所述的方法,其特征在于,基于所述置信度预测图,确定所述预设数字在所述字符串中的位置,包括:从所述输出图像中提取出所述通道对应的置信度预测图;对所述置信度预测图进行平滑处理和二值化处理,得到处理后的预测图;对所述处理后的预测图中的预定区域进行连通区域分析,确定所述处理后的预测图中的预定区域内的连通域;基于所述连通域的位置,确定所述通道对应的预设数字在所述字符串中的位置。3.根据权利要求2所述的方法,其特征在于,所述输出图像包括11个通道,其中,10个通道分别对应数字0至9的置信度预测图,1个通道对应存在涂改痕迹的数字的置信度预测图。4.根据权利要求1至3之一所述的方法,其特征在于,所述待识别图像为拍摄待识别文本得到的图像,所述字符串表征所述待识别文本中的考号。5.根据权利要求4所述的方法,其特征在于,所述目标图像识别模型经由如下步骤训练得到:获取样本集,所述样本集中的样本图像包括至少一个已标记的虚拟样本图像和至少一个已标记的真实样本图像,所述样本图像中的样本区域内包括样本字符串,所述虚拟样本图像为基于所述真实样本图像生成的图像,所述真实样本图像为拍摄样本文本得到的图像;基于所述虚拟样本图像,训练预先构建的初始图像识别模型,得到预训练的图像识别模型;基于所述真实样本图像,再次训练所述预训练的图像识别模型,得到所述目标图像识别模型。6.根据权利要求5所述的方法,其特征在于,所述虚拟样本图像通过如下方式生成:从所述真实样本图像中分割出单个数字图像,并对所述单个数字图像中的数字进行标记,得到多个样本数字图像;基于所述样本数字图像,生成样本涂改数字图像;生成初始图...

【专利技术属性】
技术研发人员:张亮王玉芳王志明卢肖帆常洪源
申请(专利权)人:华云河北雄安大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1