【技术实现步骤摘要】
文本检测模型的训练方法、文本检测方法及装置
[0001]本公开涉及计算机视觉
,尤其涉及文本检测模型的训练方法、文本检测方法及装置。
技术介绍
[0002]文本检测任务作为文本识别任务的前置任务,是一项非常重要的视觉任务。随着深度学习技术的发展,利用神经网络来进行文本检测已成为普遍流行的方式。
[0003]相关技术中,通常采取相同的网络框架,通过变换数据集的方式,来实现不同语种文本的检测。然而中文字符检测存在一种特殊的情况,即竖排文本。由于竖排文本的标注数据较少、竖排关系较难确认等原因,采用相关技术中的网络框架对其进行检测,无法确保竖排文本检测的较高准确率和召回率,从而使得相关技术中的网络框架无法很好地支持竖排文本的检测。
技术实现思路
[0004]本公开提供一种文本检测模型的训练方法、文本检测方法及装置,以至少解决相关技术中的网络框架无法确保竖排文本检测的高准确率和召回率的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种文本检测模型的训练方法,包括:
[0006]获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;
[0007]对所述目标样本图像进行旋转,得到旋转后的目标样本图像;
[0008]确定所述旋转后的目标样本图像中的文本框的目标位置信息;
[0009]基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;
[0010] ...
【技术保护点】
【技术特征摘要】
1.一种文本检测模型的训练方法,其特征在于,包括:获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;对所述目标样本图像进行旋转,得到旋转后的目标样本图像;确定所述旋转后的目标样本图像中的文本框的目标位置信息;基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;根据所述文本预测结果和所述文本框标签,确定损失数据;基于所述损失数据训练所述神经网络,得到文本检测模型。2.根据权利要求1所述的文本检测模型的训练方法,其特征在于,在所述获取目标样本图像集之前,所述文本检测模型的训练方法还包括:获取候选样本图像集,所述候选样本图像集包括候选样本图像;对所述候选样本图像进行文本检测,得到标注有所述文本框标签的候选样本图像;根据所述文本框标签,从所述候选样本图像集中获取包含竖排文本框的目标候选样本图像;对所述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像;响应于基于所述过采样后的目标候选样本图像触发的竖排文本编辑指令,在所述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像;基于所述候选样本图像集中除所述目标候选样本图像之外的其他候选样本图像,以及所述编辑后的目标候选样本图像,确定所述目标样本图像集,所述目标样本图像包括所述其他候选样本图像和所述编辑后的目标候选样本图像。3.根据权利要求1或2所述的文本检测模型的训练方法,其特征在于,所述确定所述旋转后的目标样本图像中的文本框的目标位置信息,包括:基于所述文本框标签,确定所述文本框的原始位置信息;确定所述原始位置信息在旋转过程中的偏移信息;对所述原始位置信息进行线性变换,得到变换后的原始位置信息;基于所述变换后的原始位置信息和所述偏移信息,确定所述目标位置信息。4.一种文本检测方法,其特征在于,包括:获取待检测图像;基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;其中,所述文本检测模型采用如权利要求1至3中任一项所述的文本检测模型的训练方法训练得到。5.根据权利要求4所述的文本检测方法,其特征在于,所述文本检测结果包括多个文本检测框和所述多个文本检测框各自包含文本的概率,则在所述基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果之后,所述文本检测方法还包括:从所述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框;确定所述预设数量个候选文本检测框各自对应的第一尺寸信息;
将所述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列;将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中;从所述第一序列中,确定与所述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框;过滤所述其他候选文本检测框;重复所述...
【专利技术属性】
技术研发人员:吴翔宇,袁玮,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。