一种字符图像识别方法、装置、设备及介质制造方法及图纸

技术编号:34105892 阅读:47 留言:0更新日期:2022-07-12 00:26
本申请公开了一种字符识别方法、装置、设备及介质,包括:将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。通过上述方案,能够对字符图像进行精确识别。确识别。确识别。

【技术实现步骤摘要】
一种字符图像识别方法、装置、设备及介质


[0001]本专利技术涉及图像识别
,特别涉及一种字符图像识别方法、装置、设备及介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。当前光学字符识别方法主要采用传统的深度学习方法进行识别,目的是识别出图像中的字符。由于深度学习方法需要大量的有标签样本进行有监督训练,但是标注大量的样本会极大增加训练成本;因此在实际应用中,有标签样本数量通常较少,那么在样本不充足的情况下,训练通常难以得到泛化性高的模型,这导致在新增样本识别任务中,极易出现误识别问题;同时在制造、供应、办公、交通等场景下,字符字体、背景等纷繁复杂,对识别结果产生严重干扰,导致字符识别的准确度难以提高。
[0003]综上可见,如何提高字符识别的准确度并降低训练成本是本领域有待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种字符识别方法、装置、设备及介质,能够提高字符识别的准确度并降低训练成本。其具体方案如下:
[0005]第一方面,本申请公开了一种字符识别方法,包括:
[0006]将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
[0007]利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
[0008]判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
[0009]利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
[0010]可选的,所述将目标域数据集和源域数据集分别进行图像预处理,包括:
[0011]将目标域数据集和源域数据集中任一字符图像映射成初始灰度图,并对所述初始灰度图进行高斯滤波降噪,以获得所述字符图像对应的灰度图像;
[0012]将所述字符图像进行高斯平滑处理以得到高斯平滑后图像,并利用边缘检测算子对所述高斯平滑后图像进行边缘特征提取,以获得所述字符图像对应的边缘特征图;
[0013]提取所述字符图像的梯度的方向分布,以获得所述字符图像对应的方向梯度直方图;
[0014]分别将所述目标域数据集和所述源域数据集中每一所述字符图像对应的所述灰
度图像、所述边缘特征图以及所述方向梯度直方图进行拼接,以得到所述目标域数据集中每一所述字符图像对应的目标域图像以及所述源域数据集中每一所述字符图像对应的源域图像。
[0015]可选的,所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,包括:
[0016]利用自编码器模型中的编码器提取所述目标域图像的特征向量,并利用所述自编码器模型中的解码器以及所述特征向量进行图像重建,以得到重建后图像;
[0017]计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。
[0018]可选的,所述利用所述编码器对所述源域图像进行有监督分类训练与验证,包括:
[0019]对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,并基于元学习的训练方式,利用所述编码器对所述训练支持集、所述训练查询集、所述验证支持集和所述验证查询集进行有监督分类训练与验证。
[0020]可选的,所述对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,包括:
[0021]将所述源域图像划分为训练集和验证集;所述训练集和所述验证集中的每个图像样本均携带相应的类别标签;
[0022]按照第一预设数量个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第一采样需求量和第二采样需求量,分别对所述训练集中具有相应类别标签的图像样本进行采样得到相应的训练支持集和训练查询集,以利用当前得到的所述训练支持集和所述训练查询集展开相应的有监督分类训练,然后重新跳转至所述对所述训练集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第一预设次数;
[0023]按照第二预设数量个目标类别标签以及在一次采样过程中每个所述目标类别标签对应的第三采样需求量和第四采样需求量,分别对所述验证集中具有相应类别标签的图像样本进行采样以得到相应的验证支持集和验证查询集,以利用当前得到的所述验证支持集和所述验证查询集展开相应的模型验证操作,然后重新跳转至所述对所述验证集中具有相应类别标签的图像样本进行采样的步骤,直到采样次数达到第二预设次数。
[0024]可选的,所述字符识别方法,还包括:
[0025]分别计算所述训练支持集和所述验证支持集中每个类别标签对应的原型;任一所述类别标签对应的所述原型为该类别标签对应的图像样本的特征向量的均值;
[0026]分别计算所述训练查询集中每个图像样本的特征向量与所述训练查询集中每个所述原型之间的欧氏距离,通过归一化指数函数计算所述训练查询集的预测结果的损失值;
[0027]计算验证查询集中每个图像样本的特征向量与所述验证查询集中每个所述原型之间的欧氏距离,并基于所述欧氏距离确定所述验证查询集中每个图像样本对应的预测类别。
[0028]第三方面,本申请公开了一种字符识别装置,包括:
[0029]图像获取模块,用于将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;
[0030]单次训练模块,用于利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;
[0031]迭代训练模块,用于判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;
[0032]字符识别模块,用于利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。
[0033]第三方面,本申请公开了一种电子设备,包括:
[0034]存储器,用于保存计算机程序;
[0035]处理器,用于执行所述计算机程序,以实现前述公开的字符识别方法的步骤。
[0036]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的字符识别方法的步骤。
[0037]可见,本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符识别方法,其特征在于,包括:将目标域数据集和源域数据集分别进行图像预处理,以获取与所述目标域数据集对应的目标域图像和与所述源域数据集对应的源域图像;利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,并利用所述编码器对所述源域图像进行有监督分类训练与验证;判断当前是否满足预设训练结束条件,如果否则重新跳转至所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练的步骤,直到满足所述预设训练结束条件,以得到字符识别模型;利用所述字符识别模型确定所述目标域数据集对应的字符识别结果。2.根据权利要求1所述的字符识别方法,其特征在于,所述将目标域数据集和源域数据集分别进行图像预处理,包括:将目标域数据集和源域数据集中任一字符图像映射成初始灰度图,并对所述初始灰度图进行高斯滤波降噪,以获得所述字符图像对应的灰度图像;将所述字符图像进行高斯平滑处理以得到高斯平滑后图像,并利用边缘检测算子对所述高斯平滑后图像进行边缘特征提取,以获得所述字符图像对应的边缘特征图;提取所述字符图像的梯度的方向分布,以获得所述字符图像对应的方向梯度直方图;分别将所述目标域数据集和所述源域数据集中每一所述字符图像对应的所述灰度图像、所述边缘特征图以及所述方向梯度直方图进行拼接,以得到所述目标域数据集中每一所述字符图像对应的目标域图像以及所述源域数据集中每一所述字符图像对应的源域图像。3.根据权利要求1所述的字符识别方法,其特征在于,所述利用自编码器模型中的编码器和解码器对所述目标域图像进行自监督重建训练,包括:利用自编码器模型中的编码器提取所述目标域图像的特征向量,并利用所述自编码器模型中的解码器以及所述特征向量进行图像重建,以得到重建后图像;计算出所述目标域图像和所述重建后图像对应的第一损失函数结果,以实现自监督重建训练,并基于所述第一损失函数结果判断当前是否满足预设训练结束条件。4.根据权利要求1所述的字符识别方法,其特征在于,所述利用所述编码器对所述源域图像进行有监督分类训练与验证,包括:对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,并基于元学习的训练方式,利用所述编码器对所述训练支持集、所述训练查询集、所述验证支持集和所述验证查询集进行有监督分类训练与验证。5.根据权利要求4所述的字符识别方法,其特征在于,所述对所述源域图像进行小样本采样以得到与所述源域图像对应的训练支持集、训练查询集、验证支持集和验证查询集,包括:将所述源域图像划分为训练集和验证集;所述训练集和所述验证集中的每个图像...

【专利技术属性】
技术研发人员:周涛吴婕邵蒙悦庄林志李天鹏吴吉灵
申请(专利权)人:济南博观智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1