一种基于文字区域感知的图像重定向方法技术

技术编号：41417521 阅读：6 留言：0更新日期：2024-05-21 20:50

本发明专利技术涉及一种基于文字区域感知的图像重定向方法，其特征在于通过文本语义分割模块从像素层面提取图像中的文本特征，精准感知图像文字区域，能够有效保留图像中的所有重要信息。算法基于CycleGAN的循环重构思想，理想的图像重定向算法可以保留图像中的所有重要信息，因此将重定向结果反向输入到算法，得到的重构图像与原始图像在结构和内容信息上都应保持高度一致。算法设置了正向重定向网络和反向重定向网络，二者结构相同，正向重定向网络将原始图像重定向为两个尺寸不同的生成图像，反向重定向网络分别将两个生成图像重定向回原始图像尺寸。每个重定向网络都包括特征提取主网络、文本语义分割模块、特征融合模块和注意力模块。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及到的技术包括计算机视觉、计算机图像处理和深度学习等，其中本专利技术侧重于基于文字区域感知的图像重定向算法研究。

技术介绍

1、近些年来，图像重定向算法取得了显著进展，研究方法从传统算法发展到深度学习算法，研究思想从简单的缩放、裁剪到基于内容感知进行重定向操作。然而，这些图像重定向算法很少关注图像中的文本区域，在图像中含有文本区域时表现不佳。本节对现有图像重定向算法进行分类总结，探讨其在图像重定向任务中面临的问题。

2、图像重定向任务中两种传统且直接的方法是均匀缩放和固定窗口裁剪。这两种方法不关注图像内容，只考虑了图像重定向中的几何约束。在均匀缩放中，图像内所有区域的缩放因子是相同的，因此重要内容和非重要内容之间没有区别。不仅如此，改变图像的宽高比可能会在图像的重要区域产生明显的比例失衡，对于文本内容来说，过度的压缩也会导致文本无法辨别。固定窗口裁剪则是将符合最终图像大小的裁剪窗口放置在图像中心，然后对图像进行裁剪，因此可以完整的保留裁剪窗口内的内容并丢弃图像的其他部分。然而，当图像的重要内容(如图像文字区域)在图像边缘出现时，固定窗口裁剪算法就会将重要内容丢弃，无法得到有效的图像重定向结果。

3、为了更好地保留图像中的重要信息，基于内容感知的重定向算法成为研究主流，表现为根据图像内容的重要程度进行重定向，而重要程度主要通过重要性图获得，因此重要性图的生成对于内容感知重定向至关重要。传统的内容感知方法需要人工提取图像特征，计算成本较高，提取的特征只包含低级信息，因此在进行重定向时会导致图像结构

4、基于深度学习的重定向算法提出使用神经网络提取图像特征，与人工提取特征相比更关注于图像的深层特征，相较于传统方法取得了较大进展。端到端的深度学习重定向算法通过神经网络直接生成重定向图像，但这类算法大多基于监督学习的方法进行训练，需要成对的重定向数据集作为参考，因此在含有文字区域的图像重定向任务中无法充分训练，影响了生成重定向图像的效果。基于生成对抗网络的算法通过gan网络来学习图像信息分布，大多在单个图像上进行训练，无需样本标注。但该类算法训练耗时较长，且仅针对于纹理结构标准的自然图像，当图像中含有文本时就会破坏文字结构，产生伪文字等问题。通过显著性图指导重定向过程的深度学习算法首先使用显著性区域检测来计算图像的显著性图，根据显著性图合成重定向结果。这类算法的问题在于过度依赖显著性图的生成，当图像中重要信息分散、干扰信息较多时，无法生成理想的重定向结果。同时，这类显著性图没有考虑图像中的文本语义，往往会造成文本内容的丢失。

技术实现思路

1、本专利技术立足于解决现有算法在含有文字的图像上表现不佳的问题，以科学的思想和严谨的态度，提出了一种基于文字区域感知的图像重定向算法。本专利技术首先预训练一个文本语义分割网络，对图像中的文本内容进行约束，然后将文本特征与图像特征进行融合，共同指导图像重定向过程，采用连续方法，避免了不必要的失真，可以同时保留文本区域和非文本区域的重要内容。

2、本专利技术的技术方案如下：

3、一种基于文字区域感知的图像重定向算法，其特征在于通过文本语义分割模块从像素层面提取图像中的文本特征，精准感知图像文字区域，能够有效保留图像中的所有重要信息。算法具体包括下列步骤：

4、(1)模型整体结构设计。模型基于cyclegan的循环重构思想，理想的图像重定向算法可以保留图像中的所有重要信息，因此将重定向结果反向输入到模型，得到的重构图像与原始图像在结构和内容信息上都应保持高度一致。模型设置了正向重定向网络和反向重定向网络，二者结构相同，正向重定向网络将原始图像重定向为两个尺寸不同的生成图像，反向重定向网络分别将两个生成图像重定向回原始图像尺寸。每个重定向网络都包括特征提取主网络、文本语义分割模块、特征融合模块和注意力模块。

5、(2)预训练一个基于监督学习的图像文字区域语义分割网络。使用像素级别的图像文本标注作为真值，旨在分割图像中的文字区域和其他区域。重定向网络中的文本语义分割模块为该预训练网络的部分结构。经过语义分割模块的处理后，得到图像中文本语义特征图，可以作为一种先验知识指导后续重定向任务。

6、(3)使用特征提取主网络提取图像中包含语义的高层特征。考虑到深层神经网络可以很好地提取图像的高层信息，特征提取主网络采用预训练的vgg-16网络，去除了其中的全连接层，只保留网络的前三个卷积块，共包含7个卷积层和3个最大池化层。

7、(4)使用特征融合模块将图像中的文本特征和视觉特征进行融合。特征融合模块首先对特征进行concat操作，通过四个卷积层和一个批归一化层后得到融合后的特征。

8、(5)使用注意力模块提取图像中的重要特征。在注意力模块中，对于输入特征分别进行水平和竖直两个方向的自适应平均池化，对得到的特征执行concat和1×1卷积操作，随后依次进行批归一化和hardswhish激活，得到注意力图。

9、(6)使用注意力图指导生成重定向结果。在图像重定向过程中，采用一种连续方法，根据生成的注意力图来对图像进行重定向。给定一张原始图像x(h,w)，网络生成尺寸缩小的重定向结果y1和尺寸增大的重定向结果y2。本算法采用一个大小m×n的网格覆盖输入图像x，通过计算每个网格的缩放因子来对原始图像进行重定向。

10、(7)使用循环重构思想进行模型训练。将原始图像输入重定向网络中，生成两张尺寸不同的图像，再将生成图像反向输入重定向网络中，生成与原始图像尺寸一致的重构图像。通过设置重构图像和原始图像间的损失来约束重定向过程。完成训练的模型可以针对不同尺寸、不同类型的图像进行重定向。

11、本专利技术的有益效果为：采用本专利技术所述方法，能够完成含有文字区域的图像重定向任务，保留图像中文本区域的重要信息，获得高质量的重定向结果。

本文档来自技高网...

【技术保护点】

1.一种基于语义分割的图像重定向方法，其特征在于根据图像中文本区域和非文本区域的分布差异，通过语义分割识别文本区域，从而提高网络对于文本区域的感知能力，生成高质量的重定向图像。具体包括下列七个步骤：

【技术特征摘要】

1.一种基于语义分割的图像重定向方法，其特征在于根据图像中文本区域和非文本区域的分布差异，通过语义分...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人