密集文本的检测方法及装置制造方法及图纸

技术编号:37099090 阅读:11 留言:0更新日期:2023-04-01 05:00
本申请实施例公开了一种密集文本的检测方法及装置,属于图像检测技术领域。该文本检测模型的训练方法包括:获取密集本文图像,密集文本图像中包含有文字之间密集排列的密集文本,密集文本上标注有文本框;将密集本文图像中的文本框切割为多个子文本框;将密集本文图像和子文本框作为样本数据集,对文本检测模型进行训练;将待检测图像输入文本检测模型中,并获取文本检测模型输出的待检测图像的初步预测文本框。本申请实施例以切割的子文本框为单位进行文本检测模型的训练,在保证密集文本的检测效果的同时,降低了训练时的运算量,提高了针对密集本文的文本检测模型的训练速度。度。度。

【技术实现步骤摘要】
密集文本的检测方法及装置


[0001]本申请涉及图像检测领域,尤其涉及一种密集文本的检测方法及装置。

技术介绍

[0002]由于文本自身的特殊性,某些图像中的文本之间经常会较为密集,甚至相互黏连,形成密集文本。由于密集文本的文字之间相互干扰,对于密集文本的检测一直是文本检测的难点。
[0003]相关技术中,通常采用两种方式来实现对密集文本的检测。一种方式中,可以采用渐进尺度扩张网络(Progressive Scale Expansion Network,PSENet)算法进行密集文本检测。PSENet算法将广度优先搜索的思想引入到文本分割中,对于密集文本的检测效果良好。另一种方式中,文本检测模型(例如:Textboxes++、Pixel

Anchor等)可以通过在水平方向或者垂直方向复制锚点(anchor),来实现密集文本的检测。
[0004]然而,PSENet算法的训练和检测需要遍历每个像素,运算量较大。在水平方向或者垂直方向复制anchor,需要复制大量的锚点才能保证紧密相连的文本行一定能被匹配到,其模型训练时的运算量同样很大。因此,现有的针对密集文本的文本检测模型,在训练时的运算量都比较大。

技术实现思路

[0005]本申请实施例提供了一种密集文本的检测方法及装置,可以解决现有的针对密集文本的文本检测模型,在训练时的运算量比较大的问题。所述技术方案如下:
[0006]第一方面,本申请实施例提供了一种文本检测模型的训练方法,包括:
[0007]获取密集本文图像,所述密集文本图像中包含有文字之间密集排列的密集文本,所述密集文本上标注有文本框;
[0008]将所述密集本文图像中的文本框切割为多个子文本框;
[0009]将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练;
[0010]将待检测图像输入所述文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框。
[0011]可选的,所述将所述密集本文图像中的文本框切割为多个子文本框,包括:
[0012]根据所述子文本框的预设高度,以所述文本框中心往上下方向,将所述文本框切割为多个子文本框。
[0013]可选的,在所述将所述文本框切割为多个子文本框之后,所述方法还包括:
[0014]若所述文本框的上下边界所切割出的子文本框的高度小于所述子文本框的预设高度,则将所述文本框的上下边界所切割出的子文本框填补至高度等于所述子文本框的预设高度。
[0015]可选的,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本
检测模型进行训练,包括:
[0016]通过所述文本检测模型的卷积层对所述密集本文图像进行特征提取,生成所述密集本文图像的第一特征图;
[0017]根据所述密集本文图像的第一特征图,利用锚点回归机制生成所述密集本文图像的候选参考框;
[0018]将所述候选参考框与所述子文本框进行匹配,确定所述候选参考框与所述子文本框的交并比参数;
[0019]根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归。
[0020]可选的,所述根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归,包括:
[0021]若所述交并比参数大于阈值、所述候选参考框在y轴方向的最大值大于等于上边界切割出的子文本框在y轴方向的最小值、所述候选参考框在y轴方向的最小值小于等于下边界切割出的子文本框在y轴方向的最大值,则确定所述候选参考框作为锚点参考框进行回归。
[0022]可选的,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,还包括:
[0023]将所述密集本文图像的第一特征图的第一特征区域的特征向量转换为水平序列特征向量,生成第二特征图;
[0024]将所述第二特征图形变后输入所述文本检测模型的双向长短期记忆网络层进行特征学习。
[0025]可选的,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,还包括:
[0026]通过所述文本检测模型的区域候选网络层对所述锚点参考框进行分类和回归。
[0027]可选的,所述锚点参考框的类别信息包括文本信息、非文本信息和边界信息。
[0028]可选的,在所述将所述待检测图像输入文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框之后,所述方法还包括:
[0029]使用预设算法对所述初步预测文本框进行多余框清除;
[0030]将多余框清除后的初步预测文本框进行合并,生成最终预测文本框。
[0031]可选的,所述预设算法包括非极大值抑制算法。
[0032]第二方面,本申请实施例提供了一种文本检测模型的训练装置,包括:
[0033]获取模块,用于获取密集本文图像,所述密集文本图像中包含有文字之间密集排列的密集文本,所述密集文本上标注有文本框;
[0034]切割模块,用于将所述密集本文图像中的文本框切割为多个子文本框;
[0035]训练模块,用于将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练;
[0036]检测模块,用于将待检测图像输入所述文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框。
[0037]可选的,所述切割模块,具体用于根据所述子文本框的预设高度,以所述文本框中心往上下方向,将所述文本框切割为多个子文本框。
[0038]可选的,所述切割模块,还用于若所述文本框的上下边界所切割出的子文本框的高度小于所述子文本框的预设高度,则将所述文本框的上下边界所切割出的子文本框填补至高度等于所述子文本框的预设高度。
[0039]可选的,所述训练模块,具体用于通过所述文本检测模型的卷积层对所述密集本文图像进行特征提取,生成所述密集本文图像的第一特征图;根据所述密集本文图像的第一特征图,利用锚点回归机制生成所述密集本文图像的候选参考框;将所述候选参考框与所述子文本框进行匹配,确定所述候选参考框与所述子文本框的交并比参数;根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归。
[0040]可选的,所述训练模块,具体用于若所述交并比参数大于阈值、所述候选参考框在y轴方向的最大值大于等于上边界切割出的子文本框在y轴方向的最小值、所述候选参考框在y轴方向的最小值小于等于下边界切割出的子文本框在y轴方向的最大值,则确定所述候选参考框作为锚点参考框进行回归。
[0041]可选的,所述训练模块,具体用于将所述密集本文图像的第一特征图的第一特征区域的特征向量转换为水平序列特征向量,生成第二特征图;将所述第二特征图形变后输入所述文本检测模型的双向长短期记忆网络层进行特征学习。
[0042]可选的,所述训练模块,具体用于通过所述文本检测模型的区域候选网络层对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测模型的训练方法,其特征在于,所述方法包括:获取密集本文图像,所述密集文本图像中包含有文字之间紧密排列的密集文本,所述密集文本上标注有文本框;将所述密集本文图像中的文本框切割为多个子文本框;将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练;将待检测图像输入所述文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框。2.根据权利要求1所述的方法,其特征在于,所述将所述密集本文图像中的文本框切割为多个子文本框,包括:根据所述子文本框的预设高度,以所述文本框中心往上下方向,将所述文本框切割为多个子文本框。3.根据权利要求2所述的方法,其特征在于,在所述将所述文本框切割为多个子文本框之后,所述方法还包括:若所述文本框的上下边界所切割出的子文本框的高度小于所述子文本框的预设高度,则将所述文本框的上下边界所切割出的子文本框填补至高度等于所述子文本框的预设高度。4.根据权利要求1所述的方法,其特征在于,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,包括:通过所述文本检测模型的卷积层对所述密集本文图像进行特征提取,生成所述密集本文图像的第一特征图;根据所述密集本文图像的第一特征图,利用锚点回归机制生成所述密集本文图像的候选参考框;将所述候选参考框与所述子文本框进行匹配,确定所述候选参考框与所述子文本框的交并比参数;根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归。5.根据权利要求4所述的方法,其特征在于,所述根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归,包括:若所述交并比参数大于阈值、所述候选参考框在y轴方向的最大值大于等于上边界切割出的子文本框在y轴方向的最小值、所述候选参考框在y轴方向的最小值小于等于下边界切割出的子文本框在y轴方向的最大值,则确定所述候选参考框作为锚点参考框进行回归。6.根据权利要求4所述的方法,其特征在于,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,还包括:将所述密集本文图像的第一特征图的第一特征区域的特征向量转换为水平序列特征向量,生成第二特征图;将所述第二特征图形变后输入所述文本检测模型的双向长短期记忆网络层进行特征学习。7.根据权利要求4所述的方法,其特征在于,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,还包括:
通过所述文本检测模型的区域候选网络层对所述锚点参考框进行分类和回归。8.根据权利要求7所述的方法,其特征在于,所述锚点参考框的类别信息包括文本信息、非文本信息和边界信息。9.根据权利要求1所述的方法,其特征在于,在所述将所述待检测图像输入文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框之后,所述方法还包括:使用预设算法对所述初步预测文本框进行多余框清除;将多余框清除后的初步预测文本框进行合并,生成最终预测文本框。10.根据权利要求9所述的方法,其特征在于,所述预设算法包括非极大值抑制算法。11.一种文本检测模型的训练装置,其特征在于,所述装置包括:获取模块,用于获取密集本文图像,所述密集文本图像...

【专利技术属性】
技术研发人员:赵佳鹏
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1