单字符检测模型训练方法、装置及非易失性存储介质制造方法及图纸

技术编号：37911519 阅读：11 留言：0更新日期：2023-06-21 22:34

本申请公开了一种单字符检测模型训练方法、装置及非易失性存储介质。其中，该方法包括：确定训练文本图像中每个字符对应的字符框；依据字符框中的像素点与字符框所覆盖区域外的像素点确定每个字符对应的单字符向量集合,其中，单字符向量集合用于确定与每个字符对应的目标区域，目标区域中仅有一个字符；将训练文本图像输入单字符检测模型中，并基于单字符向量集合对单字符检测模型进行训练。本申请解决了由于利用合成数据对单字符检测模型进行训练造成的训练后的模型在处理真实数据时的准确率难以保证的技术问题。时的准确率难以保证的技术问题。时的准确率难以保证的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
单字符检测模型训练方法、装置及非易失性存储介质

[0001]本专利技术涉及文字识别领域，具体而言，涉及一种单字符检测模型训练方法、装置及非易失性存储介质。

技术介绍

[0002]目前，对于单字符的检测，主要存在以下两个难点：首先，是关于数据的问题。几乎所有的公开数据集都只是对文本行进行标注，并没有对单字符进行标注。并且对于单字符进行标注的成本非常巨大，需要耗费大量的人力和时间。因此，没有单字符的标注数据，很难实现对于单字符的检测。而目前对于单字符的标注，主要采用弱监督的方法，即利用人工合成的单字符标注数据进行训练，然后再利用训练的模型对真实数据进行标注。然而，这种方法仍有不足，一是合成数据和训练模型需要耗费一定的时间，二是利用合成数据训练的模型在真实数据的准确率难以保证。其次，是关于算法的问题。就算是有了单字符的标注数据，对于单字符的检测也是较为困难的事情，因为每个字符的大小长短不一，并且字符之间的距离较为接近，容易出现一个检测框检测多个字符的现象。
[0003]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种单字符检测模型训练方法、装置及非易失性存储介质，以至少解决由于利用合成数据对单字符检测模型进行训练造成的训练后的模型在处理真实数据时的准确率难以保证的技术问题。
[0005]根据本申请实施例的一个方面，提供了一种单字符检测模型训练方法，包括：确定训练文本图像中每个字符对应的字符框；依据字符框中的像素点与字符框所覆盖区域外的像素点确...

【技术保护点】

【技术特征摘要】
1.一种单字符检测模型训练方法，其特征在于，包括：确定训练文本图像中每个字符对应的字符框；依据所述字符框中的像素点与字符框所覆盖区域外的像素点确定所述每个字符对应的单字符向量集合，其中，所述单字符向量集合用于确定与所述每个字符对应的目标区域，所述目标区域中仅有一个字符；基于所述训练文本图像和所述每个字符对应的单字符向量集合对所述单字符检测模型进行训练。2.根据权利要求1所述的单字符检测模型训练方法，其特征在于，确定所述目标文本图像中每个字符对应的字符框包括：对所述训练文本图像进行二值化处理；获取二值化处理后的训练文本图像中每一行文本对应的文本行区域在竖直方向上的像素灰度值分布信息；依据所述文本行区域在竖直方向上的像素灰度值分布信息，确定所述每一行文本中每个字符的边界，其中，所述边界为所述文本行区域中竖直方向上像素灰度值均为零的区域；依据所述每个字符的边界，确定所述每个字符对应的字符框。3.根据权利要求2所述的单字符检测模型训练方法，其特征在于，获取二值化处理后的训练文本图像中每一行文本对应的文本行区域在竖直方向上的像素灰度值分布信息之前，所述单字符检测模型训练方法包括：确定所述训练文本图像的文本行标注信息，并依据所述文本行标注信息确定所述训练文本图像中的多个文本行。4.根据权利要求2所述的单字符检测模型训练方法，其特征在于，依据所述文本行区域在竖直方向上的像素灰度值分布信息，确定所述每一行文本中每个字符的边界包括：在所述文本行区域中不存在竖直方向上像素灰度值均为零的区域的情况下，确定所述训练文本图像中的文本标注信息，其中，所述文本标注信息至少包括所述训练文本图像中的每一行文本的文字数量信息；依据所述文本行区域在竖直方向上的像素灰度值分布信息，确定所述文本行区域中每一列像素中灰度值不为零的像素的数量；依据所述文本行区域中每一列像素中灰度值不为零的像素的数量，确定目标数量个边界区域，其中，所述目标数量个边界区域中的每个边界区域中灰度值不为零的像素的数量小于预设数量阈值，所述目标数量为所述文字数量信息对应的文字数量减一；依据所述边界区域，以及所述文本行区域的边界，确定所述目标文本行中每个字符的边界。5.根据权利要求4所述的单字符检测模型训练方法，其特征在于，依据所述文本行区域中每一列像素中灰度值不为零的像素的数量，确定目标数量个边界区域包括：确定多个所述灰度值不为零的像素的数量小于所述预设数量阈值的区域；依据所述灰度值不为零的像素的数量，按照所述灰度值不为零的像素的数量由小到大的顺序，对所述多个所述灰度值不为零的像素的数量小于预设数量阈值的区域进行排列，并选取前所述目标数量个区域作为所述边界区域。6.根据权...

【专利技术属性】
技术研发人员：赵佳鹏，
申请(专利权)人：广州视源人工智能创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人