一种基于多尺度特征融合网络的场景文本检测方法技术

技术编号:40542123 阅读:18 留言:0更新日期:2024-03-05 18:58
本发明专利技术涉及图像检测技术和深度学习领域,提供了一种基于多尺度特征融合网络的场景文本检测方法,所述方法包括:通过轻量级的主干网络获得图像中的特征信息,利用可变卷积核模块对不规则弯曲文本进行特征提取;通过混合注意力机制模块对不同尺度下的卷积特征图进行特征采样,得到多尺度基础特征向量;将多尺度基础特征向量输入到特征融合模块,得到富含上下文信息的特征图;利用预测概率图和自适应阈值图分割出更为精准的文本边界。本发明专利技术使用轻量级的卷积网络代替经典卷积网络,利用混合注意力机制融合上下文特征信息,引入可微二值化模块得到更加准确的文本边界,在保证高检测准确率的情况下,实现对复杂场景文本的实时检测。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于多尺度特征融合网络的场景文本检测方法


技术介绍

1、随着深度学习的出现使得图像领域的技术取得了重大突破。深度学习的方法逐渐取代了大多数传统机器学习方法,文本检测领域就是其中之一。文本是日常生活中常见的表达方式,广泛存在于自然场景图像中,那么在文本识别领域中,文本检测技术是不可或缺的重要支撑,只有高准确率且具备实时性的文本检测技术才能推动构建出优秀的ocr系统。常见的文本检测技术主要应用于图像搜索、自动驾驶、证件票据、场景理解等等领域,有着很大的研究价值和应用前景。

2、经典机器学习的文本检测方法在简单自然场景下有一定的检测效果,但在相对复杂场景下的效果较差,缺少实际应用价值。在复杂自然场景下,经常出现不规则文本,弯曲文本和长文本等情况,基于深度学习的文本检测方法可以在抑制背景噪声的同时带来良好的文本检测效果,因此该类型的文本检测方法有很大的研究空间和价值。目前文本检测方法在发展过程中呈现两种技术推动趋势:(1)基于候选框的文本检测方法;(2)基于图像分割的文本检测方法。

3、基于候选框的文本本文档来自技高网...

【技术保护点】

1.一种基于多尺度特征融合网络的场景文本检测方法,所述场景文本检测模型包括特征提取模块,特征融合模块和检测头模块,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法,其特征在于,所述步骤1中的特征提取模块采用可变卷积核模块和特征金字塔网络作为其主干网络,该模块主要包含了多个可变卷积层,多个经典卷积层和多个残差卷积块实现;在经过特征提取的下采样过程中,对不同卷积阶段下的特征图做特征提取,得到不同尺度下的基础特征图像。构建轻量级的网络可以保证特征提取的有效性和实时性。

3.根据权利要求1所述的基于多尺度特征融合网络的场景文本检...

【技术特征摘要】

1.一种基于多尺度特征融合网络的场景文本检测方法,所述场景文本检测模型包括特征提取模块,特征融合模块和检测头模块,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法,其特征在于,所述步骤1中的特征提取模块采用可变卷积核模块和特征金字塔网络作为其主干网络,该模块主要包含了多个可变卷积层,多个经典卷积层和多个残差卷积块实现;在经过特征提取的下采样过程中,对不同卷积阶段下的特征图做特征提取,得到不同尺度下的基础特征图像。构建轻量级的网络可以保证特征提取的有效性和实时性。

3.根据权利要求1所述的基于多尺度特征融合网络的场景文本检测方法,其特征在于,所述步骤2中的混合注意力机制模块可以将不同尺度下的基础特征图像进行上下文融合采样,有效提取多尺度基础特征图像中的上下文图像信息,得到不同尺度下的特征图像。该模块主要有两种不同尺度的特征向量,分别是偏向含有细节信息的深层特征向量outk+1和偏向...

【专利技术属性】
技术研发人员:陈志华唐铖毓戴蕾王敏佟佳伟
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1