文本识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号:34726719 阅读:60 留言:0更新日期:2022-08-31 18:14
本公开涉及一种文本识别方法、装置、存储介质及电子设备,所述方法包括:获取待识别图像;将所述待识别图像输入预先训练的文本识别模型,以获取所述文本识别模型输出的目标文本;其中,所述文本识别模型通过以下方式训练得到:获取多个样本图像;针对每个所述样本图像,对所述样本图像进行图像处理,得到目标样本图像,并根据所述目标样本图像,对目标神经网络模型进行迭代训练,得到所述文本识别模型。也就是说,本公开在获取多个样本图像后,可以先对每个样本图像进行图像处理,得到目标样本图像,该目标样本图像更逼真、样式更多样,这样,根据多个目标样本图像训练得到的文本识别模型的准确率更高。模型的准确率更高。模型的准确率更高。

【技术实现步骤摘要】
文本识别方法、装置、存储介质及电子设备


[0001]本公开涉及图像处理
,具体地,涉及一种文本识别方法、装置、存储介质及电子设备。

技术介绍

[0002]在文本识别过程中,文字背景颜色和前景颜色多种多样,除常规白纸黑字外,还有大量丰富的颜色,为了书籍等的整体美观,文字底部常有非完全覆盖式色块,对文字识别造成干扰,另外,手持文档或者翻页等形式,还会造成文字扭曲,极大影响文字识别的准确率。
[0003]相关技术中,通过预先训练的文本识别模型对图像中的文本进行识别,但是,在训练文本识别模型时需要大量的样本图像,基于此,如何获取大量逼真且样式多样的样本图像成为亟待解决的问题。

技术实现思路

[0004]为了解决上述问题,本公开提供一种文本识别方法、装置、存储介质及电子设备。
[0005]第一方面,本公开提供一种文本识别方法,所述方法包括:
[0006]获取待识别图像;
[0007]将所述待识别图像输入预先训练的文本识别模型,以获取所述文本识别模型输出的目标文本;
[0008]其中,所述文本识别模型通过以下方式训练得到:
[0009]获取多个样本图像;
[0010]针对每个所述样本图像,对所述样本图像进行图像处理,得到目标样本图像,并根据所述目标样本图像,对目标神经网络模型进行迭代训练,得到所述文本识别模型。
[0011]可选地,所述图像处理包括以下一个或多个:
[0012]为所述样本图像添加背景图像;
[0013]调节所述样本图像的亮度和/或对比度;
[0014]对所述样本图像进行反色增强处理;
[0015]在所述样本图像的字符的底部添加色块;
[0016]对所述样本图像的字符进行扭曲增强处理。
[0017]可选地,所述为所述样本图像添加背景图像包括:
[0018]获取预设背景图像;
[0019]将所述样本图像与所述预设背景图像进行融合处理。
[0020]可选地,所述预设背景图像通过以下方式预先确定:
[0021]确定所述样本图像的图像尺寸;
[0022]根据所述图像尺寸,获取初始二维数组图像;
[0023]针对所述初始二维数组图像中的每个像素点,根据所述像素点的像素值,通过高斯分布计算所述像素点的目标像素值;
[0024]根据多个所述目标像素值,确定所述预设背景图像。
[0025]可选地,所述调节所述样本图像的亮度和/或对比度包括:
[0026]获取预设调节比例;
[0027]按照所述预设调节比例,调节所述样本图像的亮度和/或对比度。
[0028]可选地,所述对所述样本图像进行反色增强处理包括:
[0029]确定所述样本图像在每个颜色通道的最大像素值;
[0030]针对每个所述颜色通道,根据所述最大像素值和预设像素阈值,随机确定所述颜色通道对应的反色阈值;
[0031]针对所述样本图像的每个像素点,根据所述像素点的像素值和所述反色阈值,更新所述像素点的像素值。
[0032]可选地,所述根据所述像素点的像素值和所述反色阈值,更新所述像素点的像素值包括:
[0033]确定所述像素点的像素值与所述反色阈值之间的像素差值;
[0034]根据所述像素差值更新所述像素点的像素值。
[0035]可选地,所述在所述样本图像的字符的底部添加色块包括:
[0036]根据所述样本图像的图像尺寸,获取全透明的掩码图像;
[0037]按照预设尺寸和预设形状,在所述掩码图像中绘制目标色块,得到目标掩码图像;
[0038]将所述样本图像与所述目标掩码图像进行重叠处理。
[0039]可选地,所述按照预设尺寸和预设形状,在所述掩码图像中绘制目标色块,得到目标掩码图像包括:
[0040]在所述掩码图像中随机确定预设数量的基准点;
[0041]针对每个所述基准点,以所述基准点为中心,按照所述预设尺寸和所述预设形状,在所述掩码图像中绘制所述目标色块,得到所述目标掩码图像。
[0042]可选地,所述对所述样本图像的字符进行扭曲增强处理包括:
[0043]根据所述样本图像的图像尺寸,确定多个源基准点;
[0044]对多个所述源基准点的位置进行随机调整,得到每个所述源基准点对应的目标基准点;
[0045]根据所述源基准点的位置和所述目标基准点的位置,确定采样矩阵;
[0046]针对所述样本图像的每个像素点,根据所述采样矩阵确定所述像素点的目标位置,并将所述目标位置作为所述像素点的新位置。
[0047]可选地,所述根据所述源基准点的位置和所述目标基准点的位置,确定采样矩阵包括:
[0048]根据所述源基准点的位置和所述目标基准点的位置,确定基准点映射关系;
[0049]根据所述基准点映射关系,确定采样权重;
[0050]根据所述采样权重,确定所述采样矩阵。
[0051]可选地,所述获取多个样本图像包括:
[0052]获取预设文本序列;
[0053]随机初始化所述预设文本序列中的字符颜色,得到多个目标文本序列;
[0054]根据所述预设文本序列的尺寸,随机获取前景图像;
[0055]针对每个所述目标文本序列,按照所述目标文本序列中每个字符的位置,将所述目标文本序列与所述前景图像进行融合,得到所述样本图像。
[0056]可选地,所述根据所述目标样本图像,对目标神经网络模型进行迭代训练,得到所述文本识别模型包括:
[0057]循环执行模型训练步骤,直至根据样本文本和真值文本确定训练后的目标神经网络模型满足预设停止迭代条件,将训练后的目标神经网络模型作为所述文本识别模型;所述样本文本为所述目标样本图像输入训练后的目标神经网络模型后输出的文本;
[0058]所述模型训练步骤包括:
[0059]将所述目标样本图像输入所述目标神经网络模型,输出每个所述目标样本图像对应的样本文本;
[0060]在根据所述样本文本和所述真值文本确定所述目标神经网络模型不满足所述预设停止迭代条件的情况下,根据所述样本文本和所述真值文本确定目标损失值,根据所述目标损失值更新所述目标神经网络模型的参数,得到训练后的目标神经网络模型,将训练后的目标神经网络模型作为新的目标神经网络模型,并对所述目标样本图像进行所述图像处理,将图像处理后的目标样本图像作为新的目标样本图像。
[0061]第二方面,本公开提供一种文本识别装置,所述装置包括:
[0062]图像获取模块,用于获取待识别图像;
[0063]文本获取模块,用于将所述待识别图像输入预先训练的文本识别模型,以获取所述文本识别模型输出的目标文本;
[0064]其中,所述文本识别模型通过以下方式训练得到:
[0065]获取多个样本图像;
[0066]针对每个所述样本图像,对所述样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别图像;将所述待识别图像输入预先训练的文本识别模型,以获取所述文本识别模型输出的目标文本;其中,所述文本识别模型通过以下方式训练得到:获取多个样本图像;针对每个所述样本图像,对所述样本图像进行图像处理,得到目标样本图像,并根据所述目标样本图像,对目标神经网络模型进行迭代训练,得到所述文本识别模型。2.根据权利要求1所述的方法,其特征在于,所述图像处理包括以下一个或多个:为所述样本图像添加背景图像;调节所述样本图像的亮度和/或对比度;对所述样本图像进行反色增强处理;在所述样本图像的字符的底部添加色块;对所述样本图像的字符进行扭曲增强处理。3.根据权利要求2所述的方法,其特征在于,所述为所述样本图像添加背景图像包括:获取预设背景图像;将所述样本图像与所述预设背景图像进行融合处理。4.根据权利要求3所述的方法,其特征在于,所述预设背景图像通过以下方式预先确定:确定所述样本图像的图像尺寸;根据所述图像尺寸,获取初始二维数组图像;针对所述初始二维数组图像中的每个像素点,根据所述像素点的像素值,通过高斯分布计算所述像素点的目标像素值;根据多个所述目标像素值,确定所述预设背景图像。5.根据权利要求2所述的方法,其特征在于,所述调节所述样本图像的亮度和/或对比度包括:获取预设调节比例;按照所述预设调节比例,调节所述样本图像的亮度和/或对比度。6.根据权利要求2所述的方法,其特征在于,所述对所述样本图像进行反色增强处理包括:确定所述样本图像在每个颜色通道的最大像素值;针对每个所述颜色通道,根据所述最大像素值和预设像素阈值,随机确定所述颜色通道对应的反色阈值;针对所述样本图像的每个像素点,根据所述像素点的像素值和所述反色阈值,更新所述像素点的像素值。7.根据权利要求6所述的方法,其特征在于,所述根据所述像素点的像素值和所述反色阈值,更新所述像素点的像素值包括:确定所述像素点的像素值与所述反色阈值之间的像素差值;根据所述像素差值更新所述像素点的像素值。
8.根据权利要求2所述的方法,其特征在于,所述在所述样本图像的字符的底部添加色块包括:根据所述样本图像的图像尺寸,获取全透明的掩码图像;按照预设尺寸和预设形状,在所述掩码图像中绘制目标色块,得到目标掩码图像;将所述样本图像与所述目标掩码图像进行重叠处理。9.根据权利要求8所述的方法,其特征在于,所述按照预设尺寸和预设形状,在所述掩码图像中绘制目标色块,得到目标掩码图像包括:在所述掩码图像中随机确定预设数量的基准点;针对每个所述基准点,以所述基准点为中心,按照所述预设尺寸和所述预设形状,在所述掩码图像中绘制所述目标色块,得到所述目标掩码图像。10.根据权利要求2所述的方法,其特征在于,所述对所述样本图像的字符进行扭曲增强处理包括:根据所述样本图像的图像尺寸,确定多个源基准点;对...

【专利技术属性】
技术研发人员:王彦君
申请(专利权)人:北京鼎事兴教育咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1