文本检测模型的训练方法、文本检测方法及装置制造方法及图纸

技术编号:29293284 阅读:18 留言:0更新日期:2021-07-17 00:39
本公开关于一种文本检测模型的训练方法、文本检测方法及装置,该文本检测模型的训练方法包括:获取目标样本图像集,该目标样本图像集包括具有文本框标签的目标样本图像;对目标样本图像进行旋转,得到旋转后的目标样本图像;确定旋转后的目标样本图像中的文本框的目标位置信息;基于旋转后的目标样本图像和该目标位置信息,对神经网络进行文本检测训练,得到目标样本图像对应的文本预测结果;根据文本预测结果和文本框标签,确定损失数据;基于损失数据训练上述神经网络,得到文本检测模型。利用本公开实施例提供的技术方案不仅可以对常见自然场景中的文本识别保持较高的精度,还可以确保对竖排文本检测的较高准确率和召回率。率。率。

Training method of text detection model, text detection method and device

【技术实现步骤摘要】
文本检测模型的训练方法、文本检测方法及装置


[0001]本公开涉及计算机视觉
,尤其涉及文本检测模型的训练方法、文本检测方法及装置。

技术介绍

[0002]文本检测任务作为文本识别任务的前置任务,是一项非常重要的视觉任务。随着深度学习技术的发展,利用神经网络来进行文本检测已成为普遍流行的方式。
[0003]相关技术中,通常采取相同的网络框架,通过变换数据集的方式,来实现不同语种文本的检测。然而中文字符检测存在一种特殊的情况,即竖排文本。由于竖排文本的标注数据较少、竖排关系较难确认等原因,采用相关技术中的网络框架对其进行检测,无法确保竖排文本检测的较高准确率和召回率,从而使得相关技术中的网络框架无法很好地支持竖排文本的检测。

技术实现思路

[0004]本公开提供一种文本检测模型的训练方法、文本检测方法及装置,以至少解决相关技术中的网络框架无法确保竖排文本检测的高准确率和召回率的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种文本检测模型的训练方法,包括:
[0006]获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;
[0007]对所述目标样本图像进行旋转,得到旋转后的目标样本图像;
[0008]确定所述旋转后的目标样本图像中的文本框的目标位置信息;
[0009]基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;
[0010]根据所述文本预测结果和所述文本框标签,确定损失数据;
[0011]基于所述损失数据训练所述神经网络,得到文本检测模型。
[0012]在一示例性的实施方式中,在所述获取目标样本图像集之前,所述文本检测模型的训练方法还包括:
[0013]获取候选样本图像集,所述候选样本图像集包括候选样本图像;
[0014]对所述候选样本图像进行文本检测,得到标注有所述文本框标签的候选样本图像;
[0015]据所述文本框标签,从所述候选样本图像集中获取包含竖排文本框的目标候选样本图像;
[0016]对所述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像;
[0017]响应于基于所述过采样后的目标候选样本图像触发的竖排文本编辑指令,在所述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图
像;
[0018]基于所述候选样本图像集中除所述目标候选样本图像之外的其他候选样本图像,以及所述编辑后的目标候选样本图像,确定所述目标样本图像集,所述目标样本图像包括所述其他候选样本图像和所述编辑后的目标候选样本图像。
[0019]在一示例性的实施方式中,所述确定所述旋转后的目标样本图像中的文本框的目标位置信息,包括:
[0020]基于所述文本框标签,确定所述文本框的原始位置信息;
[0021]确定所述原始位置信息在旋转过程中的偏移信息;
[0022]对所述原始位置信息进行线性变换,得到变换后的原始位置信息;
[0023]基于所述变换后的原始位置信息和所述偏移信息,确定所述目标位置信息。
[0024]在一示例性的实施方式中,所述目标样本图像为多个,则所述对所述目标样本图像进行旋转,得到旋转后的目标样本图像,包括:
[0025]确定多个目标样本图像各自对应的旋转中心;
[0026]基于所述多个目标样本图像各自对应的旋转中心,将所述多个目标样本图像沿着各自对应的旋转方向旋转相应的角度,得到旋转后的多个目标样本图像。
[0027]根据本公开实施例的第二方面,提供一种文本检测方法,包括:
[0028]获取待检测图像;
[0029]基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;
[0030]其中,所述文本检测模型采用如上述任一实施方式所述的文本检测模型的训练方法训练得到。
[0031]在一示例性的实施方式中,所述文本检测结果包括多个文本检测框和所述多个文本检测框各自包含文本的概率,则在所述基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果之后,所述文本检测方法还包括:
[0032]从所述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框;
[0033]确定所述预设数量个候选文本检测框各自对应的第一尺寸信息;
[0034]将所述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列;
[0035]将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中;
[0036]从所述第一序列中,确定与所述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框;
[0037]过滤所述其他候选文本检测框;
[0038]重复所述将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中,至所述过滤所述其他候选文本检测框的步骤,直至所述第一序列为空,并在所述第一序列为空时,将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框。
[0039]在一示例性的实施方式,所述目标文本检测框为多个,则在所述第一序列为空时,
将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框之后,所述文本检测方法还包括:
[0040]确定多个目标文本检测框各自对应的第二尺寸信息;
[0041]将第二尺寸信息满足预设条件的预设数量个目标文本检测框,作为预设数量个竖排文本检测框;
[0042]确定所述预设数量个竖排文本检测框各自对应的横坐标信息;
[0043]将所述预设数量个竖排文本检测框按照各自对应的横坐标信息进行升序排序,得到第二序列;
[0044]依次遍历所述第二序列中的每一竖排文本检测框,当遍历每一竖排文本检测框时,执行以下操作:
[0045]确定与当前遍历的当前竖排文本检测框对应的其他竖排文本检测框,所述当前竖排文本检测框对应的其他竖排文本检测框,为所述第二序列中与所述当前竖排文本检测框之间满足预设大小关系和预设位置关系的竖排文本检测框;
[0046]根据所述当前竖排文本检测框与所述对应的其他竖排文本检测框,确定所述待检测图像对应的一组竖排文本检测框集合。
[0047]在一示例性的实施方式中,所述竖排文本检测框集合为多组,则在所述根据所述当前竖排文本检测框与所述对应的目标竖排文本检测框,确定所述待检测图像对应的一组竖排文本检测框集合之后,所述文本检测方法还包括:
[0048]对多组竖排文本检测框集合各自包含的竖排文本检测框进行连通处理,得到所述多组竖排文本检测框集合各自对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测模型的训练方法,其特征在于,包括:获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;对所述目标样本图像进行旋转,得到旋转后的目标样本图像;确定所述旋转后的目标样本图像中的文本框的目标位置信息;基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;根据所述文本预测结果和所述文本框标签,确定损失数据;基于所述损失数据训练所述神经网络,得到文本检测模型。2.根据权利要求1所述的文本检测模型的训练方法,其特征在于,在所述获取目标样本图像集之前,所述文本检测模型的训练方法还包括:获取候选样本图像集,所述候选样本图像集包括候选样本图像;对所述候选样本图像进行文本检测,得到标注有所述文本框标签的候选样本图像;根据所述文本框标签,从所述候选样本图像集中获取包含竖排文本框的目标候选样本图像;对所述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像;响应于基于所述过采样后的目标候选样本图像触发的竖排文本编辑指令,在所述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像;基于所述候选样本图像集中除所述目标候选样本图像之外的其他候选样本图像,以及所述编辑后的目标候选样本图像,确定所述目标样本图像集,所述目标样本图像包括所述其他候选样本图像和所述编辑后的目标候选样本图像。3.根据权利要求1或2所述的文本检测模型的训练方法,其特征在于,所述确定所述旋转后的目标样本图像中的文本框的目标位置信息,包括:基于所述文本框标签,确定所述文本框的原始位置信息;确定所述原始位置信息在旋转过程中的偏移信息;对所述原始位置信息进行线性变换,得到变换后的原始位置信息;基于所述变换后的原始位置信息和所述偏移信息,确定所述目标位置信息。4.一种文本检测方法,其特征在于,包括:获取待检测图像;基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;其中,所述文本检测模型采用如权利要求1至3中任一项所述的文本检测模型的训练方法训练得到。5.根据权利要求4所述的文本检测方法,其特征在于,所述文本检测结果包括多个文本检测框和所述多个文本检测框各自包含文本的概率,则在所述基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果之后,所述文本检测方法还包括:从所述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框;确定所述预设数量个候选文本检测框各自对应的第一尺寸信息;
将所述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列;将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中;从所述第一序列中,确定与所述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框;过滤所述其他候选文本检测框;重复所述...

【专利技术属性】
技术研发人员:吴翔宇袁玮
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1