【技术实现步骤摘要】
一种城市街景广告图像分割方法
[0001]本专利技术属于图像分割
,尤其涉及一种城市街景广告图像分割方法。
技术介绍
[0002]城市街景图像作为旅游广告的重要背景元素,在广告中扮演者重要的角色,不仅可以作为广告的地理标识符,让广告更加具体、形象化,还可以为广告添加更多地理情感,提升广告的文化价值。对城市街景图像进行分割,即对城市街景图像进行像素级别的类别标注,在广告学领域中有重要的应用价值。通过图像分割技术可以分离广告中的不同元素,以便在后期制作中进行编辑和合成,使广告制作和投放更加精准和高效。
[0003]近年来,随着无人机技术和现代卫星遥感技术的发展,城市街景图像在分辨率、观测尺度、成像方式都取得了进一步的发展,呈现出背景复杂、分辨率较高、空间细节和纹理信息更丰富的特点,使对其精准分割的可能性有所提高。然而,由于城市街景中地物尺度变化大、高类间相似性和地物相互遮挡的特性,对城市街景广告图像进行图像分割的难度较大。
[0004]目前,随着芯片、图形处理单元等硬件的发展,深度学习在图像分割等图像处理等领域取得了显著的成就。其中,卷积神经网络(CNN)捕获细节定位信息能力较强,可以用于层级结构的图像特征表示,已经成为城市街景图像分割的主流技术。但是由于卷积操作感受野受到限制,难以对图像全局上下文信息建模,不能构建长程语义依赖关系,对于背景复杂、地物语义模糊、高分辨率的城市街景广告图像,分割效果并不理想。Transformer以及Swin Transformer由于其具有强大的全局建模能力,对图像 ...
【技术保护点】
【技术特征摘要】
1.一种城市街景广告图像分割方法,其特征在于,该方法具体包括:S1:城市街景广告图像数据集收集;S2:图像预处理;S3:基于CSWin Transformer的图像模型构建;S4:模型训练;S5:城市街景广告图像分割性能评估。2.如权利要求1所述一种城市街景广告图像分割方法,其特征在于,所述S1具体包括:选取ISPRS提供的德国Vaihingen地区和Potsdam地区航空遥感高分辨率图像数据集;数据集中图像具有人工标注的地物类别标签图,共有五个前景类和一个背景类,其中五个前景类分别是不透明水面、建筑物、低矮植被、树木、汽车;所述Vaihingen是一个小而分散的村庄,数据集包含33张不同大小的城市街景图像,图像平均尺寸是2494
×
2064像素,选取编号ID为2、4、6、8、10、12、14、16、20、22、24、27、29、31、33、35、38为测试集,其余16张图像为训练集;所述Potsdam是一个典型的历史城市,有着庞大的建筑群、狭窄的街道和密集建筑结构,数据集中包含38张大小相同的城市场景图像,数据集图像尺寸是6000
×
6000像素,选取编号为2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13, 5_14、5_15, 6_13、6_14、6_15、7_13为测试集,其余24张为训练集。3.如权利要求1所述一种城市街景广告图像分割方法,其特征在于,所述S2具体包括:S201:图像裁剪:由于每张图像的尺寸不一致,为了方便后续网络的训练,首先对城市街景图片进行裁剪,对训练集数据影像采用256
×
256大小的窗口进行裁剪;S202:数据增强:为了提高模型的鲁棒性和泛化能力,对于训练数据集中的所有图片进行随机缩放、随机垂直翻转、随机水平翻转数据增强技术。4.如权利要求1所述一种城市街景广告图像分割方法,其特征在于,所述S3具体包括:基于CSWin Transformer的城市街景广告图像分割方法,整体采用简单、有效的U型网络结构,主要包括编码器、解码器、跳跃连接、分割头这几个部分;所述CSWin Transformer的图像模型包括CSWin Transformer模块、特征融合模块、ASPP多尺度特征融合模块和增强分割头模块。5.如权利要求3所述一种城市街景广告图像分割方法,其特征在于,所述基于CSWin Transformer的城市街景广告图像分割方法整体架构具体如下:对于给定的城市街景图像,首先经过阶段1中由7
×
7大小、步长为4卷积组成的序列映射层,得到大小的图片块序列,通道数为C,随后经过CSWin Transformer模块学习全局信息;为了获得多尺度、层级性的特征表示,编码器中划分为四个阶段,每个阶段包括一个由3
×
3大小、步长为2的卷积组成的下采样模块和由CSWin Transformer block组成的CSWin Transformer模块,每个阶段的CSWin Transformer block数量为,下采样模块用于减少token数量,并将通道数目翻倍;经过四个阶段的编码器阶段,得到大小的特征图,随后将特征度送入解码器阶段;解码器于编码器呈对称结构,同样包含四个阶段,每个阶段包括一个CNN上采样模块
和特征融合模块;所述CNN上采样模块由大小反卷积组成,用于将特征图大小翻倍、通道数减半;所述特征融合模块采用设计了轻量级的注意力机制,以自适应权重的方式融合来自于编码器的低维细节特征和高维语义特征;在编码器和解码器对应四个阶段,遵循经典Unet网络设计,添加4次跳跃连接,用于辅助位置等细节信息的恢复;由于阶段3和阶段4中特征具有较大的感受野,包含丰富的深层语义特征,若能对深层语义信息进行多尺度理解,有助于模型更好的理解多尺度物体信息;在阶段3和阶段4的跳跃连接中,基于注意力机制,设计一个ASPP多尺度特征融合模块;最后,将解码器四个阶段的输出上采样到统一大小,全部作为输入,送入增强的分割头中,经过大小卷积和ReLU激活函数输出与原输入图像分辨率大小相同的分割图。6.如权利要求3所述一种城市街景广告图像分割方法,其特征在于,所述CSWinTransformer模块具体如下:将CSWinTransformer作为城市街景广告图像分割网络的编码器主干网络,此网络具有十字形窗口的自注意力机制,不仅可以有效的对全局上下文信息进行建模,还可以有效的降低计算开销,它通过水平和垂直两个方向的条带状窗口分块形成一个十字形窗口;对于水平方向来说,输入的被划分为不重叠且具有相同宽度的水平条带,即,其中每个条带包括个序列,特别的,每个阶段中sw宽度可以根据计算复杂度和模型情况进行调整,并非固定大小;假设Transformer中查询Q、键值K和值V的维度都是,多头注意力头数为,水平方向的注意力结果定义...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。