一种跨正常和雾天天气下的场景文本检测方法及装置制造方法及图纸

技术编号：41087115 阅读：4 留言：0更新日期：2024-04-25 13:48

本发明专利技术公开了一种跨正常和雾天天气下的场景文本检测方法及装置，方法包括：通过IA‑YOLO提供的雾天合成算法，将正常天气的Total‑Text数据集变成合成雾天数据集；使用Labelme标注工具将采集后的真实雾天图像进行标注，建立真实雾天数据集；构建跨正常和雾天天气下的场景文本检测，该模型是图像增强网络和双分支结合DBHead进行场景文本检测算法，将两条不同分支的多尺度特征使用基于坐标注意力的融合网络进行融合；通过拉普拉斯金字塔融合得到增强图像。装置包括：处理器和存储器。针对现有的场景文本检测的基础上，克服不同天气的限制，以确保在不同的天气条件下都能取得良好的效果，而不仅仅局限于特定的天气条件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉、场景文本检测领域，尤其涉及一种跨正常和雾天天气下的场景文本检测方法及装置。

技术介绍

1、场景文本检测一直是计算机视觉领域的研究热点之一。但是近年来，场景文本检测研究主要集中在不规则形状文本的表示以及从文字或字符中心区域、像素级方向、文本半径等几何属性中恢复文本轮廓的后处理方法。对特殊天气下的场景文本检测缺少研究。由于雨雪、雾霾等天气因素的影响，场景中的文本容易模糊、失真，从而导致文本检测的准确率降低。

2、虽然在恶劣天气下场景文本检测的研究较少，但是在目标检测领域已经有大量文献可以参考。

3、在恶劣天气下目标检测方面，方法主要有：先恢复图像再检测，在检测网络前端添加去雾网络，迁移学习。

4、先恢复图像再检测的方法，虽然符合人类逻辑但是恢复网络是基于深度学习的，可能存在人类看不见的噪声。

5、在检测网络前端添加去雾网络的方法，可能会因为引入恢复网络而导致网络深度加深，网络收敛困难。并且，当恢复网络性能不佳时，也会导致检测网络精度下降。

6、迁移学习的方法，虽然可以解决人工标注数据集的成本，但是当目标域与源域相差过大时，这种方法也就不太适应了。

7、然而，这些方法只能处理特定的恶劣天气，甚至在正常天气(通常指正常的清晰天气)下性能也会恶化。这主要是因为这些方法都是基于特定天气条件下的图像恢复或增强来提高网络特征提取的能力，所以在不同的天气条件下不能取得很好的效果。

8、场景文本检测算法分为两类：(1)基于回归的方法主要以经

技术实现思路

1、本专利技术提供了一种跨正常和雾天天气下的场景文本检测方法及装置，针对现有的场景文本检测的基础上，克服不同天气的限制，以确保在不同的天气条件下都能取得良好的效果，而不仅仅局限于特定的天气条件，详见下文描述：

2、第一方面、一种跨正常和雾天天气下的场景文本检测方法，所述方法包括：

3、通过ia-yolo提供的雾天合成算法，将正常天气total-text数据集变成合成雾天数据集；使用labelme标注工具将采集后的图像进行标注，建立真实雾天数据集；

4、构建跨正常和雾天天气下的场景文本检测，该模型是图像增强网络和双分支结合dbhead进行场景文本检测算法，将两条不同分支的多尺度特征基于坐标注意力的融合网络进行融合；通过拉普拉斯金字塔融合得到增强图像。

5、其中，所述双分支为：对一条分支不做处理直接提取原始图像特征，另外一条分支通过图像增强网络再提取增强图像特征。

6、其中，所述图像增强网络为：

7、利用拉普拉斯金字塔将图像分解为一个低频和三个高频分量，低频增强网络用于增强低频信息，将增强后的低频分量与原始低频分量再拼接，通过空间注意力，提高文字区域特征；

8、对于高频分量，通过仿射变换将低频分量上采样2倍得到的特征与高频分量融合，通过不停的上采样到高频分量一样大小再利用仿射变换融合的方式，得到增强后的高频和低频分量，再通过拉普拉斯金字塔融合得到增强图像。

9、其中，所述低频增强网络为：

10、通过1×1的卷积，改变通道数，将得到的4维张量n×c×h×w变成5维张量4×n×c/4×h×w，再分解为4个n×c/4×h×w的张量，分别通过1×1，3×3，5×5，7×7的深度可分离卷积；将输出的张量再变成4维张量n×c×h×w，通过1×1的分组卷积聚合，将得到的特征再与原始特征相加，最后通过1×1的卷积恢复到原始通道数。

11、进一步地，所述基于坐标注意力的融合网络为：

12、将两个分支的特征逐点相加，得到融合特征，融合特征通过1x1卷积层、批处理归一化层和relu激活函数的影响，使用坐标注意力来捕捉全局特征，再调整原始图像和增强图像的通道大小，两者都通过1×1卷积层减小；

13、最后，通过1×1卷积层将拼接后的通道恢复到原始通道大小，坐标注意力分别对水平方向和垂直方向进行平均池化分别得到两个c×h×1和c×1×w的向量，在空间维度上concat和1x1卷积来压缩通道，再是通过bn正则化和non-linear来编码垂直方向和水平方向的空间信息，接下来分解，再各自通过1x1的卷积得到和输入特征一样的通道数，再归一化加权。

14、第二方面、一种跨正常和雾天天气下的场景文本检测装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法。

15、第三方面、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法。

16、本专利技术提供的技术方案的有益效果是：

17、1、本专利技术利用设计的双分支结构、图像增强网络、融合网络和场景文本检测算法，实现了跨正常天气和雾天的场景文本检测；

18、2、本专利技术设计双分支网络框架，与单分支的网络对比可以更好的提取图像的特征；

19、3、本专利技术利用拉普拉斯金字塔设计的图像增强网络可以同时增加正常天气和有雾天气下的图像特征提取性能；

20、4、本专利技术设计的融合网络有效的融合了不同尺度的网络特征，提高了网络特征提取的互补性；

21、5、本专利技术利用dbhead进行最后的场景文本检测，与dbnet相比，大幅提高了场景文本检测性能和网络的鲁棒性；

22、6、本专利技术将训练好的模型用于正常天气和雾天数据集以证明有效性。

本文档来自技高网...

【技术保护点】

1.一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述双分支为：对一条分支不做处理直接提取原始图像特征，另外一条分支通过图像增强网络再提取增强图像特征。

3.根据权利要求1所述的一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述图像增强网络为：

4.根据权利要求1所述的一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述低频增强网络为：

5.根据权利要求1所述的一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述基于坐标注意力的融合网络为：

6.一种跨正常和雾天天气下的场景文本检测装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权

...

【技术特征摘要】

1.一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述方法包括：

3.根据权利要求1所述的一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述图像增强网络为：

4.根据权利要求1所述的一种跨正常和雾天天气下的场景文本检测方法，其特征在于，所述低频增强网络为：

5.根据权...

【专利技术属性】
技术研发人员：周刚，刘昭汐，
申请(专利权)人：新疆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人