一种基于多尺度特征融合网络的场景文本检测方法技术

技术编号：40542123 阅读：3 留言：0更新日期：2024-03-05 18:58

本发明专利技术涉及图像检测技术和深度学习领域，提供了一种基于多尺度特征融合网络的场景文本检测方法，所述方法包括：通过轻量级的主干网络获得图像中的特征信息，利用可变卷积核模块对不规则弯曲文本进行特征提取；通过混合注意力机制模块对不同尺度下的卷积特征图进行特征采样，得到多尺度基础特征向量；将多尺度基础特征向量输入到特征融合模块，得到富含上下文信息的特征图；利用预测概率图和自适应阈值图分割出更为精准的文本边界。本发明专利技术使用轻量级的卷积网络代替经典卷积网络，利用混合注意力机制融合上下文特征信息，引入可微二值化模块得到更加准确的文本边界，在保证高检测准确率的情况下，实现对复杂场景文本的实时检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于多尺度特征融合网络的场景文本检测方法。

技术介绍

1、随着深度学习的出现使得图像领域的技术取得了重大突破。深度学习的方法逐渐取代了大多数传统机器学习方法，文本检测领域就是其中之一。文本是日常生活中常见的表达方式，广泛存在于自然场景图像中，那么在文本识别领域中，文本检测技术是不可或缺的重要支撑，只有高准确率且具备实时性的文本检测技术才能推动构建出优秀的ocr系统。常见的文本检测技术主要应用于图像搜索、自动驾驶、证件票据、场景理解等等领域，有着很大的研究价值和应用前景。

2、经典机器学习的文本检测方法在简单自然场景下有一定的检测效果，但在相对复杂场景下的效果较差，缺少实际应用价值。在复杂自然场景下，经常出现不规则文本，弯曲文本和长文本等情况，基于深度学习的文本检测方法可以在抑制背景噪声的同时带来良好的文本检测效果，因此该类型的文本检测方法有很大的研究空间和价值。目前文本检测方法在发展过程中呈现两种技术推动趋势：(1)基于候选框的文本检测方法；(2)基于图像分割的文本检测方法。

3、基于候选框的文本检测方法主要通过目标检测的方式，将场景文本当作模型检测目标。该类别方法一般通过修改通用目标检测器的候选框建议网络和边界框回归模块，直接将自然场景图像中的文本实例定位出来进行候选框检测，最后通过连接阈值模块将候选框进行拼接合并，形成文本检测框。基于候选框的文本检测方法的通用步骤为：首先使用卷积神经网络进行特征提取，再将特征图输入到不同的文本分类器中，通过分类器区分文本区域和非文本

4、基于图像分割的文本检测方法主要采用分割的思想，将场景文本图像进行像素级分割。因为场景文本检测中的像素点只有文本和非文本两种类型，所以将场景文本检测任务作为图像分割任务来简化模型参数，进一步提高模型检测的精度上限。因此对于该类型的图像分割任务来说，分割度低的条件下可以更好地兼顾模型的精度和检测的实时性，达到较好的文本检测效果。基于图像分割的文本检测方法的通用步骤为：首先通过全卷积网络提取图像特征，进行像素级别的文本行预测，再连接相邻的文本像素，从而得到图像分割结果，最后通过图像分割的结果获得文本行的边框。基于图像分割的文本检测方法优势在于不受限于文本形状与方向的限制，检测精度更加高，劣势在于方法感受野较小，对字符间距较大的文本行检测效果不好。

5、因此通过分析主流文本检测方法的现状可知，目前文本检测方法仍存在对弯曲文本，长文本检测效果较差和检测速度较慢的问题，在文本检测精度，文本检测形状适用性和文本检测实时性方面都有较大的提升空间，提出一种高精度且适用于弯曲文本检测的实时文本检测方法具有实际意义。

技术实现思路

1、针对现有的场景文本检测方法中存在的问题，本文提出了一种基于多尺度特征融合网络的场景文本检测方法，该方法将注意力机制与特征融合模块相结合，提出改进的可微分二值化函数，提高检测精度的同时抑制弯曲文本等背景噪声。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种基于多尺度特征融合网络的场景文本检测方法，包括以下步骤：

4、步骤1：构建轻量级的主干网络作为特征提取模块，利用特征提取模块对待检测图像做渐进式的下采样，得到不同尺度下的基础特征图像；

5、步骤2：通过混合注意力机制模块，提取多尺度基础特征图像中的上下文信息，充分感知图像的空间信息和通道信息，得到多种尺度下的特征图；

6、步骤3：预定先验条件下的特征权重值，对不同尺度下的特征图进行渐进式的上采样，通过预设不同权重值进行特征叠加，将特征图还原到原尺寸，以此得到更加丰富的特征图。

7、步骤4：将特征图经过反卷积层的调整得到对应尺寸下的文本检测概率图p，再通过自适应阈值计算得到文本边界阈值图t。

8、步骤5：将文本检测概率图p和文本边界阈值图t经过改进的可微二值化函数，通过检测头模块得到近似的二值化图，从而划分出更加精准的文本边界，得到场景文本检测结果。

9、进一步地，所述步骤1中的特征提取部分采用可变卷积核模块和特征金字塔网络作为主干网络，该模块主要包含了多个可变卷积层，多个经典卷积层和多个残差卷积块实现；在经过特征提取的下采样过程中，对不同卷积阶段下的特征图做特征提取，得到不同尺度下的基础特征图像。构建轻量级的网络可以保证特征提取的有效性和实时性。

10、进一步地，所述步骤2中的混合注意力机制模块将不同尺度下的基础特征图像进行上下文融合采样。该模块主要有两种不同尺度的特征向量，分别是偏向含有细节信息的深层特征向量outk+1和偏向含有全局信息的浅层特征向量ink。首先，深层特征向量经过通道注意力模块得到通道权重向量，并且与来自编码端的浅层特征通道向量ink进行相乘，得到通道加权后的编码特征；其次，浅层特征向量ink经过空间注意力模块得到空间信息权重向量，并与来自解码端的深层特征向量outk+1两倍上采样后的特征向量位置相乘，得到空间信息加权后的解码特征；最后，将加权后的编码特征和解码特征按位置相加得到融合后的解码特征outk,即第k尺度下的特征输出图outk。上述模块内部运算公式可以表示为：

11、outk＝[upk(outk+1)*spatialattention(ink)]+[ink*channelattention(outk+1)]

12、其中outk+1为第k+1尺度下的深层特征图，ink为第k尺度下的浅层特征图，upk为上采样模块，spatialattention为空间注意力机制模块，channelattention为通道注意力机制模块，outk为第k尺度下的特征输出图。

13、进一步地，所述步骤3中的特征融合模块预定先验条件下合理的特征权重值对不同尺度下的特征图进行混合注意力机制模块采样，通过不同权重值下的倍率叠加将特征图还原到统一尺寸并融合相加，得到更加丰富的特征图f，其计算公式可表示为：

14、

15、其中fn为第n尺度下的特征图向量，mixedattention为上述步骤2中的混合注意力机制模块，为特征权重值，f为特征融合模块的输出特征图。

16、进一步地，所述步骤4中的检测头模块将富含语义信息的特征图输入到反卷积层，通过尺度放大将特征图还原到原来的图像大小，接着通过归一化层和relu激活函数得到每个像素位置的预测数值，从而得到场景文本检测概率图p。通过场景文本检测概率图p进行检测分类标签，将图像分割成不同大小的图形。其中每个图形都被认为是一个待分割的集合，其计算公式可表示为：

17、

18、其中n是顶点个数，不同数据集中的n是不同的。比如icdar2015文本检测数据集中的标签是矩形本文档来自技高网...

【技术保护点】

1.一种基于多尺度特征融合网络的场景文本检测方法，所述场景文本检测模型包括特征提取模块，特征融合模块和检测头模块，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法，其特征在于，所述步骤1中的特征提取模块采用可变卷积核模块和特征金字塔网络作为其主干网络，该模块主要包含了多个可变卷积层，多个经典卷积层和多个残差卷积块实现；在经过特征提取的下采样过程中，对不同卷积阶段下的特征图做特征提取，得到不同尺度下的基础特征图像。构建轻量级的网络可以保证特征提取的有效性和实时性。

3.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法，其特征在于，所述步骤2中的混合注意力机制模块可以将不同尺度下的基础特征图像进行上下文融合采样，有效提取多尺度基础特征图像中的上下文图像信息，得到不同尺度下的特征图像。该模块主要有两种不同尺度的特征向量，分别是偏向含有细节信息的深层特征向量outk+1和偏向含有全局信息的浅层特征向量ink，其计算公式可表示为：

4.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法，其

5.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法，其特征在于，所述步骤4中的检测头模块。该模块将特征图经过多重感知机的调整得到对应尺寸下的文本检测概率图P，通过自适应阈值模块计算得到文本边界阈值图T。

6.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法，其特征在于，所述步骤5中的可微分二值化函数将文本检测概率图P和文本边界阈值图T融合得到近似的二值化图，从而划分出更加精准的文本边界，得到场景文本检测结果。其中改进的可微二值化计算公式可表示为：

...

【技术特征摘要】

【专利技术属性】
技术研发人员：陈志华，唐铖毓，戴蕾，王敏，佟佳伟，
申请(专利权)人：华东理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人