一种端到端的文本检测方法、系统、终端及存储介质技术方案

技术编号:27879898 阅读:17 留言:0更新日期:2021-03-31 01:12
本发明专利技术提供了一种端到端的文本检测方法、系统、终端及存储介质,所述方法包括:将待检测的图片进行特征分割,对分割后的特征逐层逐点叠加生成新特征图;将所述新特征图拼接后进行掩膜分割预测,得到掩膜预测图;对所述掩膜预测图进行目标检测,得到所需检测的文本框位置信息。本发明专利技术还提供对应的文本检测系统、终端及存储介质。本发明专利技术不仅拥有更高的精度,而且可以覆盖很多困难情境如文本重叠问题,具有更好的鲁棒性。

【技术实现步骤摘要】
一种端到端的文本检测方法、系统、终端及存储介质
本专利技术涉及计算机视觉和图像处理
,具体地,涉及一种端到端的文本检测方法、系统、终端及存储介质。
技术介绍
随着深度学习和计算机视觉技术的迅速发展,检测算法准确率越来越高、速度越来越快。其中,在输入图片中检测文本是一个非常重要的子领域,只有当文本被准确检测到,才能进行下一步的识别以及提取信息,可以广泛应用到行政文档自动识别、自然场景标志检测与识别等各个领域。目前,对图片进行文本检测的算法几乎都是基于深度学习以及卷积神经网络的,具体有以下两个流派:基于传统目标检测系列算法对文本数据进行针对性改动的方法和基于分割网络的方法。基于传统目标检测系列算法衍生的方法在文本检测上表现良好,但整体流程尤其后处理比较复杂,准确度也有提升空间;基于分割网络的方法在近两年兴起,准确率和速度都表现优良,但从根本上无法解决文本重叠问题。经过检索发现:授权公告号为CN105631426B,授权公告日为2019年05月07日的中国专利技术专利,其公开了一种对图片进行文本检测的方法及装置,获取进行文本检测的图片;将所述图片输入全卷积网络的第一层,在所述第一层中基于文本区域的序列特征,检测出所述图片中的文本区域;将所述文本区域输入到所述全卷积网络的第二层,在所述第二层中基于文本中间线的监督分类器,将所述文本区域分解为独立的文本行区域输出,所述文本中间线的区域由高斯分布的函数定义。该专利技术基于两层级联式的全卷积网络,对图片中的文本行进行提取,不仅充分节省了重叠区域之间的计算资源,而且利用了文本更高层的序列特征作为监督信息,提高了文本检测算法的鲁棒性。该专利文献中所提供的技术,虽然在一定程度上能够改善文本重叠区域的计算问题,但是效果有限,不能够拥有更高的精度,且对于复杂的文本重叠问题,鲁棒性差。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种端到端的文本检测方法、系统、终端及存储介质。根据本专利技术的一个方面,提供了一种端到端的文本检测方法,包括:将待检测的图片进行特征分割;对所述特征分割得到的特征逐层逐点叠加生成新特征图;将所述新特征图拼接后进行掩膜分割预测,得到掩膜预测图;对所述掩膜预测图进行目标检测,得到所需检测的文本框位置信息;其中,所述将待检测的图片进行特征分割,包括:将待检测的图片依次经过N次相同比例的下采样,得到N个不同尺寸的下采样特征图;N为大于等于1的自然数;对所述特征分割得到的特征逐层逐点叠加生成新特征图,其中:对于N个不同尺寸的下采样特征图,将第一下采样特征图进行上采样,得到第一上采样特征图,所述第一下采样特征图为N个不同尺寸的下采样特征图中尺寸最小的特征图,所述第一上采样特征图的尺寸与N个不同尺寸的下采样特征图中第二小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第二小尺寸的特征图进行逐点相加,生成新的第二小尺寸特征图;对此新的第二小尺寸特征图进行上采样,得到第二上采样特征图,所述第二上采样特征图的尺寸与N个不同尺寸的下采样特征图中第三小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第三小尺寸的特征图进行逐点相加,生成新的第三小尺寸特征图;按照以上逐层逐点叠加操作类推,最终得到一个所需尺寸大小的第一新特征图;同时,对N个不同尺寸的下采样特征图,分别进行不同比例的上采样,最终得到M个所需尺寸大小的第二新特征图;M为小于N的自然数;所述第一新特征图、所述第二新特征图的尺寸相同。优选地,将所述新特征图拼接后进行掩膜分割预测,得到掩膜预测图,包括:将尺寸相同的所述第一新特征图、所述第二新特征图在通道维度上进行拼接,形成一个整体的多通道的最终特征图;将所述最终特征图进行掩膜分割预测,得到与所述第一新特征图、所述第二新特征图尺寸相同的单通道的掩膜预测图。优选地,对所述掩膜预测图进行目标检测,得到所需检测的文本框位置信息,包括:对所述掩膜预测图进行特征提取,得到特征提取图;对所述特征提取图生成多个预选框,形成预选框集合;将所述预选框和所述特征提取图进行感兴趣区域池化操作,得到相同尺寸的各个预选框对应的特征提取图;将各个预选框对应的特征提取图进行分类操作,得到每个预选框是否为文本框的分类结果;对所有判断为文本框的预选框进行非极大值抑制,得到稀疏的最终文本框位置信息,即所需检测的文本框位置信息。优选地,在所述特征分割之前,还包括对待检测文本的图片进行预处理,所述预处理包括:按照设定比例,对图片进行随机裁剪;按照设定概率对裁剪后的图片进行翻转;对翻转后的图片进行随机角度的旋转;对旋转后的图片增加噪声;将增加噪声后的图片尺寸调整到进行特征分割所需的输入图片尺寸。优选地,所述将待检测的图片进行特征分割,所述对所述掩膜预测图进行目标检测,分别采用分割网络、目标检测网络实现,其中还包括:对网络进行训练,根据损失函数分别计算分割网络的损失值和目标检测网络的损失值,并做加权和作为整体损失值;利用训练数据集,根据所述整体损失值,采用反向传播算法对分割网络和目标检测网络进行训练。优选地,所述训练数据集中的每一张图片均包含与图片一一对应的标注文件,所述标注文件中包含图片中出现的所有文本框的位置信息;在对训练数据集中的图片进行预处理的每一个过程中,均对相应的标注文件中的文本框的位置信息做出相应的改变,保证修改后的图片与文本框位置信息一致。根据本专利技术的另一个方面,提供了一种端到端的文本检测系统,包括:分割模块,该模块将待检测的图片进行特征分割;新特征图生成模块,该模块对所述分割模块分割后的特征逐层逐点叠加生成新特征图;掩膜预测图生成模块,该模块将所述新特征图生成模块得到的新特征图拼接后进行掩膜分割预测,得到掩膜预测图;目标检测模块,该模块对所述掩膜预测图生成模块得到的掩膜预测图进行目标检测,得到所需检测的文本框位置信息;其中,所述分割模块,将待检测的图片依次经过N次相同比例的下采样,得到N个不同尺寸的下采样特征图;N为大于等于1的自然数;所述新特征图生成模块,对于所述分割模块得到的N个不同尺寸的下采样特征图,将第一下采样特征图进行上采样,得到第一上采样特征图,所述第一下采样特征图为N个不同尺寸的下采样特征图中尺寸最小的特征图,所述第一上采样特征图的尺寸与N个不同尺寸的下采样特征图中第二小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第二小尺寸的特征图进行逐点相加,生成新的第二小尺寸特征图;对此新的第二小尺寸特征图进行上采样,得到第二上采样特征图,所述第二上采样特征图的尺寸与N个不同尺寸的下采样特征图中第三小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第三小尺寸的特征图进行逐点相加,生成新的第三小尺寸特征图;按照以上逐层逐点叠加操作类推,最终得到一个所需尺寸大小的第一本文档来自技高网
...

【技术保护点】
1.一种端到端的文本检测方法,其特征在于,包括:/n将待检测的图片进行特征分割;/n对所述特征分割得到的特征逐层逐点叠加生成新特征图;/n将所述新特征图拼接后进行掩膜分割预测,得到掩膜预测图;/n对所述掩膜预测图进行目标检测,得到所需检测的文本框位置信息;/n其中,所述将待检测的图片进行特征分割,包括:/n将待检测的图片依次经过N次相同比例的下采样,得到N个不同尺寸的下采样特征图;N为大于等于1的自然数;/n对所述特征分割得到的特征逐层逐点叠加生成新特征图,其中:/n对于N个不同尺寸的下采样特征图,将第一下采样特征图进行上采样,得到第一上采样特征图,所述第一下采样特征图为N个不同尺寸的下采样特征图中尺寸最小的特征图,所述第一上采样特征图的尺寸与N个不同尺寸的下采样特征图中第二小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第二小尺寸的特征图进行逐点相加,生成新的第二小尺寸特征图;/n对此新的第二小尺寸特征图进行上采样,得到第二上采样特征图,所述第二上采样特征图的尺寸与N个不同尺寸的下采样特征图中第三小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第三小尺寸的特征图进行逐点相加,生成新的第三小尺寸特征图;/n按照以上逐层逐点叠加操作类推,最终得到一个所需尺寸大小的第一新特征图;/n同时,对N个不同尺寸的下采样特征图,分别进行不同比例的上采样,最终得到M个所需尺寸大小的第二新特征图;M为小于N的自然数;/n所述第一新特征图、所述第二新特征图的尺寸相同。/n...

【技术特征摘要】
1.一种端到端的文本检测方法,其特征在于,包括:
将待检测的图片进行特征分割;
对所述特征分割得到的特征逐层逐点叠加生成新特征图;
将所述新特征图拼接后进行掩膜分割预测,得到掩膜预测图;
对所述掩膜预测图进行目标检测,得到所需检测的文本框位置信息;
其中,所述将待检测的图片进行特征分割,包括:
将待检测的图片依次经过N次相同比例的下采样,得到N个不同尺寸的下采样特征图;N为大于等于1的自然数;
对所述特征分割得到的特征逐层逐点叠加生成新特征图,其中:
对于N个不同尺寸的下采样特征图,将第一下采样特征图进行上采样,得到第一上采样特征图,所述第一下采样特征图为N个不同尺寸的下采样特征图中尺寸最小的特征图,所述第一上采样特征图的尺寸与N个不同尺寸的下采样特征图中第二小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第二小尺寸的特征图进行逐点相加,生成新的第二小尺寸特征图;
对此新的第二小尺寸特征图进行上采样,得到第二上采样特征图,所述第二上采样特征图的尺寸与N个不同尺寸的下采样特征图中第三小尺寸的特征图相同;将所述第一上采样特征图与相同尺寸的下采样特征图中第三小尺寸的特征图进行逐点相加,生成新的第三小尺寸特征图;
按照以上逐层逐点叠加操作类推,最终得到一个所需尺寸大小的第一新特征图;
同时,对N个不同尺寸的下采样特征图,分别进行不同比例的上采样,最终得到M个所需尺寸大小的第二新特征图;M为小于N的自然数;
所述第一新特征图、所述第二新特征图的尺寸相同。


2.根据权利要求1所述的端到端的文本检测方法,其特征在于,所述将待检测的图片进行特征分割,其中将预处理后的图片依次经过5次下采样,分别得到1/2、1/4、1/8、1/16和1/32共5个不同尺寸的特征图。


3.根据权利要求2所述的端到端的文本检测方法,其特征在于,对所述特征分割得到的特征逐层逐点叠加生成新特征图,其中:
将1/32特征图进行上采样,得到另一个1/16特征图,将下采样过程中生成的1/16特征图与此上采样过程中生成的1/16特征图做逐点相加,生成新的1/16特征图;对此新的1/16特征图进行上采样,得到另一个1/8特征图,将之前下采样过程中生成的1/8特征图与此上采样过程中生成的1/8特征图做逐点相加,生成新的1/8的特征图;对此新的1/8特征图进行上采样,得到另一个1/4特征图,将之前下采样过程中生成的1/4特征图与此上采样过程中生成的1/4特征图做逐点相加,生成新的1/4的特征图;将1/32特征图送入比例为8的上采样模块、将1/16特征图送入比例为4的上采样模块、将1/8特征图送入比例为2的上采样模块,最终得到4个1/4的特征图,将这四个特征图在通道维度上进行拼接,形成一个整体的多通道的最终特征图,将最终特征图进行掩膜分割预测,得到最终尺寸为1/4的单通道的掩膜预测图。


4.根据权利要求1所述的端到端的文本检测方法,其特征在于,将所述新特征图拼接后进行掩膜分割预测,得到掩膜预测图,包括:
将尺寸相同的所述第一新特征图、所述第二新特征图在通道维度上进行拼接,形成一个整体的多通道的最终特征图;
将所述最终特征图进行掩膜分割预测,得到与所述第一新特征图、所述第二新特征图尺寸相同的单通道的掩膜预测图。


5.根据权利要求1所述的端到端的文本检测方法,其特征在于,对所述掩膜预测图进行目标检测,得到所需检测的文本框位置信息,包括:
对所述掩膜预测图进行特征提取,得到特征提取图;
对所述特征提取图生成多个预选框,形成预选框集合;
将所述预选框和所述特...

【专利技术属性】
技术研发人员:段建钢王晴晴李蔡元杜沁益
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1