单字符检测模型训练方法、装置及非易失性存储介质制造方法及图纸

技术编号:37911519 阅读:11 留言:0更新日期:2023-06-21 22:34
本申请公开了一种单字符检测模型训练方法、装置及非易失性存储介质。其中,该方法包括:确定训练文本图像中每个字符对应的字符框;依据字符框中的像素点与字符框所覆盖区域外的像素点确定每个字符对应的单字符向量集合,其中,单字符向量集合用于确定与每个字符对应的目标区域,目标区域中仅有一个字符;将训练文本图像输入单字符检测模型中,并基于单字符向量集合对单字符检测模型进行训练。本申请解决了由于利用合成数据对单字符检测模型进行训练造成的训练后的模型在处理真实数据时的准确率难以保证的技术问题。时的准确率难以保证的技术问题。时的准确率难以保证的技术问题。

【技术实现步骤摘要】
单字符检测模型训练方法、装置及非易失性存储介质


[0001]本专利技术涉及文字识别领域,具体而言,涉及一种单字符检测模型训练方法、装置及非易失性存储介质。

技术介绍

[0002]目前,对于单字符的检测,主要存在以下两个难点:首先,是关于数据的问题。几乎所有的公开数据集都只是对文本行进行标注,并没有对单字符进行标注。并且对于单字符进行标注的成本非常巨大,需要耗费大量的人力和时间。因此,没有单字符的标注数据,很难实现对于单字符的检测。而目前对于单字符的标注,主要采用弱监督的方法,即利用人工合成的单字符标注数据进行训练,然后再利用训练的模型对真实数据进行标注。然而,这种方法仍有不足,一是合成数据和训练模型需要耗费一定的时间,二是利用合成数据训练的模型在真实数据的准确率难以保证。其次,是关于算法的问题。就算是有了单字符的标注数据,对于单字符的检测也是较为困难的事情,因为每个字符的大小长短不一,并且字符之间的距离较为接近,容易出现一个检测框检测多个字符的现象。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种单字符检测模型训练方法、装置及非易失性存储介质,以至少解决由于利用合成数据对单字符检测模型进行训练造成的训练后的模型在处理真实数据时的准确率难以保证的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种单字符检测模型训练方法,包括:确定训练文本图像中每个字符对应的字符框;依据字符框中的像素点与字符框所覆盖区域外的像素点确定每个字符对应的单字符向量集合,其中,单字符向量集合用于确定与每个字符对应的目标区域,目标区域中仅有一个字符;将训练文本图像输入单字符检测模型中,并基于单字符向量集合对单字符检测模型进行训练。
[0006]可选地,确定目标文本图像中每个字符对应的字符框包括:对训练文本图像进行二值化处理;获取二值化处理后的训练文本图像中每一行文本对应的文本行区域在竖直方向上的像素灰度值分布信息;依据文本行区域在竖直方向上的像素灰度值分布信息,确定每一行文本中每个字符的边界,其中,边界为文本行区域中竖直方向上像素灰度值均为零的区域;依据每个字符的边界,确定每个字符对应的字符框。
[0007]可选地,获取二值化处理后的训练文本图像中每一行文本对应的文本行区域在竖直方向上的像素灰度值分布信息之前,单字符检测模型训练方法包括:确定训练文本图像的文本行标注信息,并依据文本行标注信息确定训练文本图像中的多个文本行。
[0008]可选地,依据文本行区域在竖直方向上的像素灰度值分布信息,确定每一行文本中每个字符的边界包括:在文本行区域中不存在竖直方向上像素灰度值均为零的区域的情况下,确定训练文本图像中的文本标注信息,其中,文本标注信息至少包括训练文本图像中
的每一行文本的文字数量信息;依据文本行区域在竖直方向上的像素灰度值分布信息,确定文本行区域中每一列像素中灰度值不为零的像素的数量;依据文本行区域中每一列像素中灰度值不为零的像素的数量,确定目标数量个边界区域,其中,目标数量个边界区域中的每个边界区域中灰度值不为零的像素的数量小于预设数量阈值,目标数量为文字数量信息对应的文字数量减一;依据边界区域,以及文本行区域的边界,确定目标文本行中每个字符的边界。
[0009]可选地,依据文本行区域中每一列像素中灰度值不为零的像素的数量,确定目标数量个边界区域包括:确定多个灰度值不为零的像素的数量小于预设数量阈值的区域;依据灰度值不为零的像素的数量,按照灰度值不为零的像素的数量由小到大的顺序,对多个灰度值不为零的像素的数量小于预设数量阈值的区域进行排列,并选取前目标数量个区域作为边界区域。
[0010]可选地,依据字符框中的像素点与字符框所覆盖区域外的像素点确定每个字符对应的单字符向量集合包括:依据字符框,确定每个字符对应的字符框所包围的字符区域;确定字符区域中的第一目标像素点,其中,目标像素点为位于字符区域中的任意一个像素点;确定在字符区域外,且与第一目标像素点之间的距离最小的第二目标像素点;将第一目标像素点和第二目标像素点作为目标单字符向量的两个端点,并将第二目标像素点指向第一目标像素点的方向作为目标单字符向量的方向,以及将目标单字符向量除以第一目标像素点和第二目标像素点之间的距离长度,得到单位目标单字符向量,其中,单位目标单字符向量为单字符向量集合中的任意一个单字符向量。
[0011]可选地,单字符检测模型还用于确定每个字符对应的预测单字符向量集合,其中,基于训练文本图像和每个字符对应的单字符向量集合对单字符检测模型进行训练包括:基于每个字符对应的预测单字符向量集合和每个字符对应的单字符向量集合,构建损失函数,并基于损失函数和训练文本图像对单字符检测模型进行训练。
[0012]可选地,单字符检测模型还用于对训练文本图像进行多次下采样,得到与训练文本图像对应的预设尺度的特征图,并基于特征图检测训练文本图像中的每个字符。
[0013]根据本申请实施例的另一方面,还提供了一种单字符检测模型训练装置,包括:获取模块,用于确定训练文本图像中每个字符对应的字符框;处理模块,用于依据字符框中的像素点与字符框所覆盖区域外的像素点确定每个字符对应的单字符向量集合, 其中,单字符向量集合用于确定与每个字符对应的目标区域,目标区域中仅有一个字符;训练模块,用于将训练文本图像输入单字符检测模型中,并基于单字符向量集合对单字符检测模型进行训练,其中,单字符检测模型用于预测目标文本图像中每个字符对应的单字符向量集合,并基于每个字符对应的单字符向量集合确定每个字符在目标文本图像中的目标区域。
[0014]根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,在程序运行时控制非易失性存储介质所在设备执行单字符检测模型训练方法。
[0015]根据本申请实施例的另一方面,还提供了一种电子设备,电子设备中包括处理器,处理器用于运行程序,程序运行时执行单字符检测模型训练方法。
[0016]在本申请实施例中,采用确定训练文本图像中每个字符对应的字符框;依据字符框中的像素点与字符框所覆盖区域外的像素点确定每个字符对应的单字符向量集合, 其
中,单字符向量集合用于确定与每个字符对应的目标区域,目标区域中仅有一个字符;将训练文本图像输入单字符检测模型中,并基于单字符向量集合对单字符检测模型进行训练的方式,通过对训练文本图像添加字符框,并基于字符框确定每个字符对应的向量集合,达到了通过真实的训练文本图像而非自行生成的训练文本图像得到高质量的训练数据的目的,从而实现了提高单字符检测模型的检测准确率的技术效果,进而解决了由于利用合成数据对单字符检测模型进行训练造成的训练后的模型在处理真实数据时的准确率难以保证技术问题。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单字符检测模型训练方法,其特征在于,包括:确定训练文本图像中每个字符对应的字符框;依据所述字符框中的像素点与字符框所覆盖区域外的像素点确定所述每个字符对应的单字符向量集合,其中,所述单字符向量集合用于确定与所述每个字符对应的目标区域,所述目标区域中仅有一个字符;基于所述训练文本图像和所述每个字符对应的单字符向量集合对所述单字符检测模型进行训练。2.根据权利要求1所述的单字符检测模型训练方法,其特征在于,确定所述目标文本图像中每个字符对应的字符框包括:对所述训练文本图像进行二值化处理;获取二值化处理后的训练文本图像中每一行文本对应的文本行区域在竖直方向上的像素灰度值分布信息;依据所述文本行区域在竖直方向上的像素灰度值分布信息,确定所述每一行文本中每个字符的边界,其中,所述边界为所述文本行区域中竖直方向上像素灰度值均为零的区域;依据所述每个字符的边界,确定所述每个字符对应的字符框。3.根据权利要求2所述的单字符检测模型训练方法,其特征在于,获取二值化处理后的训练文本图像中每一行文本对应的文本行区域在竖直方向上的像素灰度值分布信息之前,所述单字符检测模型训练方法包括:确定所述训练文本图像的文本行标注信息,并依据所述文本行标注信息确定所述训练文本图像中的多个文本行。4.根据权利要求2所述的单字符检测模型训练方法,其特征在于,依据所述文本行区域在竖直方向上的像素灰度值分布信息,确定所述每一行文本中每个字符的边界包括:在所述文本行区域中不存在竖直方向上像素灰度值均为零的区域的情况下,确定所述训练文本图像中的文本标注信息,其中,所述文本标注信息至少包括所述训练文本图像中的每一行文本的文字数量信息;依据所述文本行区域在竖直方向上的像素灰度值分布信息,确定所述文本行区域中每一列像素中灰度值不为零的像素的数量;依据所述文本行区域中每一列像素中灰度值不为零的像素的数量,确定目标数量个边界区域,其中,所述目标数量个边界区域中的每个边界区域中灰度值不为零的像素的数量小于预设数量阈值,所述目标数量为所述文字数量信息对应的文字数量减一;依据所述边界区域,以及所述文本行区域的边界,确定所述目标文本行中每个字符的边界。5.根据权利要求4所述的单字符检测模型训练方法,其特征在于,依据所述文本行区域中每一列像素中灰度值不为零的像素的数量,确定目标数量个边界区域包括:确定多个所述灰度值不为零的像素的数量小于所述预设数量阈值的区域;依据所述灰度值不为零的像素的数量,按照所述灰度值不为零的像素的数量由小到大的顺序,对所述多个所述灰度值不为零的像素的数量小于预设数量阈值的区域进行排列,并选取前所述目标数量个区域作为所述边界区域。6.根据权...

【专利技术属性】
技术研发人员:赵佳鹏
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1