基于融合多特征的街景图像处理方法及系统技术方案

技术编号:30965408 阅读:19 留言:0更新日期:2021-11-25 20:34
本发明专利技术公开了一种基于融合多特征的街景图像处理方法,包括以下步骤:待处理的街景图像经过卷积神经网络后得到C个特征信息图;将C个特征信息图均复制l份,并分别划分为大小不一的区域,然后将分好区域的图均输入三个池化层,对每幅图均进行平均池化计算、最大池化计算与广义平均池化计算;将经池化计算后的各个区域中的相同尺度向量归为一列,并将所有尺度向量进行串联,得到一个l*C维的多维特征向量;将三种池化层得到的多维特征向量进行拼接,得到最终的全局特征,并输入到全连接层进行降维。本发明专利技术能够有效提取图像特征,降低训练的复杂性,提高检索的精确率。提高检索的精确率。提高检索的精确率。

【技术实现步骤摘要】
基于融合多特征的街景图像处理方法及系统


[0001]本专利技术涉及图像处理领域,尤其涉及一种基于融合多特征的街景图像处 理方法及系统。

技术介绍

[0002]随着网络中的图片资源呈现指数级增长,而众多领域中,需要根据不同 的需求检索相关图片,故检索相关图像的方法显得尤为重要。近些年,基于 内容的图像检索方法(ContentBasedImageRetrieval,CBIR)兴起,并成为 当前的研究热门方向。
[0003]传统的图像检索方法中,陈等使用SITF方法,在空间尺度中寻找极值点, 并提取出其位置、尺度、旋转不变量,将极值点的属性信息作为图像的特征 用于图像检索。马等通过GIST方法提取出图像的方向频率信息等局部特征作 为图像特征。虽然此类方法取得了一定的效果,但无法捕获图像数据变化剧 烈时的高层语义特征,限制了图像检索的精度。
[0004]近年来,随着ImageNet的出现,卷积神经网络得到了广泛应用,紧接着, AlexNet、VGGNet、GoogleNet等被相继提出。任等使用卷积神经网络提取特 征进行图像检索,相对于传统检索方法,得到了良好的效果。但传统的卷积 神经网络主要针对于图像分类任务,若直接用于图像检索,所提取到的特征 并不能捕获街景图像的关键信息,仍存在检索精度低的问题。
[0005]为解决此问题,研究人员开始引入注意力机制提取关键区域的特征信息。 李提出了一种软注意力与硬注意力机制并行的模型,通过多注意力机制的方 法,突出图像特征的关键部分。Kim提出一种基于注意力机制的集成模型,为 网络模型中可训练的部分学习不同的注意力模块,并在其中嵌入函数用于对 特征的提取训练。此类方法有助于突出关键区域的特征,但提取的特征仍没 有对图像关键区域进行有效的描述。
[0006]在过去的数十年中,集成方法广泛应用于图像检索中。通过对可学习的 协作控制部分进行训练,并将训练得到的全局特征集成到一个模型中能够有 效提高检索的性能。在GoogleLandmarkRetrieval竞赛中,几种名列前茅的 方法通过单独训练不同的全局特征并组合起来,取得了较理想的效果。Dai提 出了一种批量擦除特征,在处理后的特征使用最大池化 (MaximumActivationofConvolutions,MAC)的方法,使特征的表示得到优 化。目前,常用的池化方法还包括平均池化(Sum pooling ofconvolutions,SPOC),与广义平均池化(Generalizedmean pooling,GeM)。 这些集成方法虽然能提高图像检索的精度,但是这些方法都需要对多个部分 进行独立训练,存在网络规模大,训练时间长,训练参数多等问题。
[0007]此外,在传统的卷积神经网络中,在特征图输入到全连接层时,特征图 的尺寸大小必须是固定的,若图像输入到全连接层时尺寸大小不符合输入要 求,特征图将会被裁剪或者缩放。在这个过程中,图像的特征将会被改变, 甚至造成特征的丢失。

技术实现思路

[0008]本专利技术主要目的在提供一种能够避免图像在输入到全连接层时将建筑物 部分剪
裁,从而保证检索性能的基于融合多特征的街景图像处理方法及系统。
[0009]本专利技术所采用的技术方案是:
[0010]提供一种基于融合多特征的街景图像处理方法,包括以下步骤:
[0011]待处理的街景图像经过卷积神经网络后得到C个特征信息图,该卷积神 经网络的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,且 该最后一个卷积层连接三个池化层,包括多尺度平均池化层、多尺度最大池 化层与多尺度广义平均池化层;
[0012]将C个特征信息图均复制l份,并分别划分为大小不一的区域,然后将 分好区域的图均输入三个池化层,对每幅图均进行平均池化计算、最大池化 计算与广义平均池化计算;
[0013]将经池化计算后的各个区域中的相同维度向量归为一列,经过排列组合 并筛除组合后维度不同的向量后,将所有向量进行串联,得到一个l*C维的 多维特征向量,其中l、C均为自然数;
[0014]将三种池化层得到的多维特征向量输入到全连接层进行降维,将降维后 的向量进行拼接,得到最终的全局特征。
[0015]接上述技术方案,n≥4。
[0016]接上述技术方案,划分区域region大小的公式如下所示:
[0017]li的取值为1,2,3

l;H为特征信息图的高度,W 为特征信息图的宽度。
[0018]接上述技术方案,该方法还包括步骤:
[0019]计算待处理的街景图像的最终全局特征与预存的数据库中每张图像的全 局特征之间的曼哈顿距离,找到与待处理的街景图像之间曼哈顿距离越小的 图像。
[0020]接上述技术方案,通过交叉匹配的方式将区域中的相同尺度向量归为一 列。
[0021]本专利技术还提供了一种基于融合多特征的街景图像处理的卷积神经网络, 包括:
[0022]卷积层模块,其最后一个卷积层作为特征层用来捕获图像中待处理的街 景图像,用于将待处理的街景图像经过卷积后得到C个特征信息图,
[0023]分区模块,用于将C个特征信息图均复制l份,并分别划分为大小不一 的区域;
[0024]池化层模块,包括三个池化层:多尺度平均池化层、多尺度最大池化层 与多尺度广义平均池化层,用于将分好区域每幅图均进行平均池化计算、最 大池化计算与广义平均池化计算;
[0025]全连接层模块,用于将经池化计算后的各个区域中的相同尺度向量归为 一列,并将所有尺度向量进行串联,得到一个l*C维的多维特征向量,其中 l、C均为自然数;并将三种池化层得到的多维特征向量进行拼接,得到最终 的全局特征;
[0026]归一化层模块,用于将最终的全局特征进行降维。
[0027]接上述技术方案,划分区域region大小的公式如下所示:
[0028]li的取值为1,2,3

l;H为特征信息图的高度,W 为特征信息图的宽度。
[0029]接上述技术方案,该系统还包括匹配模块,用于计算待处理的街景图像 的最终全
局特征与预存的数据库中每张图像的全局特征之间的曼哈顿距离, 找到与待处理的街景图像之间曼哈顿距离越小的图像。
[0030]接上述技术方案,通过交叉匹配的方式将区域中的相同尺度向量归为一 列。
[0031]本专利技术还提供了一种计算机存储介质,其内存储有可被处理器执行的计 算机程序,该计算机程序执行上述技术方案的基于融合多特征的街景图像处 理方法。
[0032]本专利技术产生的有益效果是:本专利技术提出了一种融合多全局特征的街景图 像检索方法。首先使用卷积神经网络提取图像的特征,然后通过多个不同的 池化层对特征进行处理,得到多个全局特征,最后将多个全局特征进行串联 组合得到的最终特征用于图像检索,计算图像之间的曼哈顿距离度量图像的 相似性。在本专利技术中,实现了端到端的训练方式,通过多尺度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合多特征的街景图像处理方法,其特征在于,包括以下步骤:待处理的街景图像经过卷积神经网络后得到C个特征信息图,该卷积神经网络的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,且该最后一个卷积层连接三个池化层,包括多尺度平均池化层、多尺度最大池化层与多尺度广义平均池化层;将C个特征信息图均复制l份,并分别划分为大小不一的区域,然后将分好区域的图均输入三个池化层,对每幅图均进行平均池化计算、最大池化计算与广义平均池化计算;将经池化计算后的各个区域中的相同维度向量归为一列,经过排列组合并筛除组合后维度不同的向量后,将所有向量进行串联,得到一个l*C维的多维特征向量,其中l、C均为自然数;将三种池化层得到的多维特征向量输入到全连接层进行降维,将降维后的向量进行拼接,得到最终的全局特征。2.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,n≥4。3.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,划分区域region大小的公式如下所示:li的取值为1,2,3

l;H为特征信息图的高度,W为特征信息图的宽度。4.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,该方法还包括步骤:计算待处理的街景图像的最终全局特征与预存的数据库中每张图像的全局特征之间的曼哈顿距离,找到与待处理的街景图像之间曼哈顿距离越小的图像。5.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,通过交叉匹配的方式将区域中的相同尺度向量归为一列。6.一种基于融合多特征的街景图像处理的卷积神经网络,其...

【专利技术属性】
技术研发人员:李晓林徐港邵长成周一凡黄磊
申请(专利权)人:武汉工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1