模型训练方法、文本检测方法及装置制造方法及图纸

技术编号:32430109 阅读:20 留言:0更新日期:2022-02-24 18:40
本说明书实施例提供一种模型训练方法、文本检测方法及装置,该模型训练方法包括:获取训练样本,训练样本包含训练样本图像以及训练样本图像中竖向文本的标签框;对训练样本图像进行处理,使训练样本图像中的竖向文本转换成横向文本;通过文本检测模型提取横向文本的文本空间特征和文本序列特征,基于文本空间特征以及文本序列特征确定训练样本图像对应的文本检测框;基于训练样本图像对应的标签框以及文本检测框,对文本检测模型进行训练。根据本说明书实施例的技术方案,能够高效准确地对图像中的竖向文本进行检测。像中的竖向文本进行检测。像中的竖向文本进行检测。

【技术实现步骤摘要】
模型训练方法、文本检测方法及装置


[0001]本说明书涉及计算机
,特别涉及一种模型训练方法、文本检测方法、模型训练装置、文本检测装置、计算设备以及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,机器学习的应用也越来越广泛,其中,文本识别是机器学习的一个重要分支,在对图像中的文本进行识别之前,需要检测文本在图像中的位置。
[0003]在一种技术方案中,采用滑动窗口的方式对图像中的文本进行特征提取,根据提取的特征对图像中横向文本的位置进行检测。然而,在该技术方案中,由于采用滑动窗口的方式对图像中的文本进行特征提取,因此,该技术方案主要适用于对图像中的横向文本进行检测,对图像中的竖向文本检测的效果较差。
[0004]因此,如何准确高效地对图像中的竖向文本的位置进行检测成为了亟待解决的技术难题。

技术实现思路

[0005]有鉴于此,本说明书实施例提供了一种模型训练方法、文本检测方法、模型训练装置、文本检测装置、计算设备以及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本说明书实施例的第一方面,提供了一种模型训练方法,包括:
[0007]获取训练样本,所述训练样本包含训练样本图像以及所述训练样本图像中竖向文本的标签框;
[0008]对所述训练样本图像进行处理,使所述训练样本图像中的竖向文本转换成横向文本;
[0009]通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征,基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框;
[0010]基于所述训练样本图像对应的所述标签框以及所述文本检测框,对所述文本检测模型进行训练。
[0011]在一些示例实施例中,所述文本检测模型包括:特征编码网络、双向循环神经网络以及区域推荐网络,所述通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征,基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框,包括:
[0012]通过所述特征编码网络提取所述训练样本图像对应的文本空间特征;
[0013]通过所述双向循环神经网络提取所述训练样本图像对应的文本序列特征;
[0014]基于所述文本空间特征以及所述文本序列特征,通过所述区域推荐网络确定所述训练样本图像对应的文本检测框。
[0015]在一些示例实施例中,通过区域推荐网络确定所述训练样本图像对应的文本检测
框,包括:
[0016]通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框;
[0017]对所述至少一个子文本检测框进行合并处理,确定所述横向文本对应的文本检测框;
[0018]将所述横向文本的文本检测框映射到所述训练样本图像上,得到所述竖向文本的文本检测框。
[0019]在一些示例实施例中,所述区域推荐网络包括分类网络和回归网络,所述通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框,包括:
[0020]通过所述分类网络对所述子文本检测框进行分类,确定包含所述横向文本的至少一个子文本检测框;
[0021]通过所述回归网络对包含所述横向文本的所述至少一个子文本检测框的位置进行修正,确定所述至少一个子文本检测框修正后的位置。
[0022]在一些示例实施例中,所述对所述至少一个子文本检测框进行合并处理,包括:
[0023]若两个子文本检测框的中心点之间的距离小于预定像素阈值,并且所述两个子文本检测框之间的重合度大于预定重合度阈值,则对所述两个子文本检测框进行合并处理。
[0024]在一些示例实施例中,所述基于所述训练样本图像对应的所述标签框以及所述文本检测框,对所述文本检测模型进行训练,包括:
[0025]基于所述训练样本图像的所述标签框的坐标信息以及所述文本检测框的坐标信息,确定对应的损失函数,所述损失函数包含回归损失函数和分类损失函数;
[0026]基于所述损失函数,通过反向传播的方式对所述文本检测模型进行训练。
[0027]在一些示例实施例中,所述方法还包括:
[0028]获取测试样本,所述测试样本包含多个测试样本图像以及所述测试样本图像中的竖向文本的标签框;
[0029]对所述多个测试样本图像进行旋转处理,使所述测试样本图像中的竖向文本转换成横向文本;
[0030]通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征,基于所述文本空间特征以及所述文本序列特征确定所述测试样本图像对应的文本检测框;
[0031]基于所述测试样本图像对应的所述标签框以及所述文本检测框,对所述文本检测模型进行测试。
[0032]在一些示例实施例中,所述方法还包括:
[0033]基于语料库生成预定长度范围的文本,所述语料库包括字体以及背景图像;
[0034]根据所述文本的边缘阈值生成与所述文本的大小对应的透明贴图;
[0035]对所述文本以及所述透明贴图进行合并处理,生成对应的文字贴图;
[0036]基于预定的贴图规则将所述文字贴图贴到所述背景图像,生成所述多个训练样本图像,其中,所述透明贴图的边缘形成所述文本的标签框。
[0037]在一些示例实施例中,所述预定的贴图规则包括多个贴图规则,所述基于预定的贴图规则将所述文字贴图贴到所述背景图像,包括:
[0038]按照预定比例从所述多个贴图规则中选取目标贴图规则,其中,所述预定比例为从所述多个贴图规则中选取各个贴图规则的概率;
[0039]根据所选取的目标贴图规则将所述文字贴图贴到所述背景图像。
[0040]在一些示例实施例中,所述方法还包括:
[0041]以所述背景图像的左上角点为基准点,确定所述背景图像对应的透明贴图的坐标;
[0042]将所述透明贴图的坐标配置为所述文本的标签框的坐标。
[0043]在一些示例实施例中,所述对所述多个训练样本图像进行处理,使所述训练样本图像中的竖向文本转换成横向文本,包括:
[0044]将所述训练样本图像以逆时针方向旋转90度,使所述竖向文本转换成所述横向文本。
[0045]根据本说明书实施例第二方面,提供了一种文本检测方法,包括:
[0046]获取待检测图像,所述待检测图像包含竖向文本;
[0047]对所述待检测图像进行旋转处理,将所述竖向文本转换成横向文本;
[0048]通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征;
[0049]基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框,
[0050]其中,所述文本检测模型是根据上述第一方面中任一项所述的模型训练方法训练得到的。
[0051]在一些示例实施例中,所述基于所述文本空间特征以及所述文本序列特征确定所述待检测图像对应的文本检测框,包括:
[0052]通过特征编码网络提取所述待检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取训练样本,所述训练样本包含训练样本图像以及所述训练样本图像中竖向文本的标签框;对所述训练样本图像进行处理,使所述训练样本图像中的竖向文本转换成横向文本;通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征,基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框;基于所述训练样本图像对应的所述标签框以及所述文本检测框,对所述文本检测模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述文本检测模型包括:特征编码网络、双向循环神经网络以及区域推荐网络,所述通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征,基于所述文本空间特征以及所述文本序列特征确定所述训练样本图像对应的文本检测框,包括:通过所述特征编码网络提取所述训练样本图像对应的文本空间特征;通过所述双向循环神经网络提取所述训练样本图像对应的文本序列特征;基于所述文本空间特征以及所述文本序列特征,通过所述区域推荐网络确定所述训练样本图像对应的文本检测框。3.根据权利要求2所述的方法,其特征在于,通过区域推荐网络确定所述训练样本图像对应的文本检测框,包括:通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框;对所述至少一个子文本检测框进行合并处理,确定所述横向文本对应的文本检测框;将所述横向文本的文本检测框映射到所述训练样本图像上,得到所述竖向文本的文本检测框。4.根据权利要求3所述的方法,其特征在于,所述区域推荐网络包括分类网络和回归网络,所述通过区域推荐网络确定所述横向文本对应的至少一个子文本检测框,包括:通过所述分类网络对所述子文本检测框进行分类,确定包含所述横向文本的至少一个子文本检测框;通过所述回归网络对包含所述横向文本的所述至少一个子文本检测框的位置进行修正,确定所述至少一个子文本检测框修正后的位置。5.根据权利要求3所述的方法,其特征在于,所述对所述至少一个子文本检测框进行合并处理,包括:若两个子文本检测框的中心点之间的距离小于预定像素阈值,并且所述两个子文本检测框之间的重合度大于预定重合度阈值,则对所述两个子文本检测框进行合并处理。6.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本图像对应的所述标签框以及所述文本检测框,对所述文本检测模型进行训练,包括:基于所述训练样本图像的所述标签框的坐标信息以及所述文本检测框的坐标信息,确定对应的损失函数,所述损失函数包含回归损失函数和分类损失函数;基于所述损失函数,通过反向传播的方式对所述文本检测模型进行训练。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取测试样本,所述测试样本包含多个测试样本图像以及所述测试样本图像中的竖向
文本的标签框;对所述多个测试样本图像进行旋转处理,使所述测试样本图像中的竖向文本转换成横向文本;通过文本检测模型提取所述横向文本的文本空间特征和文本序列特征,基于所述文本空间特征以及所述文本序列特征确定所述测试样本图像对应的文本检测框;基于所述测试样本图像对应的所述标签框以及所述文本检测框,对所述文本检测模型进行测试。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:基于语料库生成预定长度范围的文本,所述语料库包括字体以及背景图像;根据所述文本的边缘阈值生成与所述文本的大小对应的透明贴图;对所述文本以及所述透明贴图进行合并处理,生成对应的文字贴图;基于预定的贴图规则将所述文字贴图贴到所述背景图像,生成所述多个训练样本图像,其中,所述透明贴图的边缘形成所述文本的标签框。9.根据权利要求8所述的方法,其特征在于,所述预定的贴图规则包括多个贴图规则,所述基于预定的贴图规则将所述文字贴图贴到所述背景图像,包括:按照预定比例从所述多个贴图规则中选取目标贴图规则,其中,所述预定比例为从所述多个贴图规则中选取各个贴图规则的概率;根据所选取的目标贴图规则将所述文字贴图贴到所述背景图...

【专利技术属性】
技术研发人员:张鹏远李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1