当前位置: 首页 > 专利查询>浙江大学专利>正文

一种视觉位置识别方法、电子设备、介质技术

技术编号:39054479 阅读:12 留言:0更新日期:2023-10-12 19:47
本发明专利技术公开了一种视觉位置识别方法、电子设备、介质,包括:获取输入图像;利用卷积神经网络提取输入图像的特征向量;基于无监督学习训练一主成分分析转换模型,利用主成分分析转换模型重构输入图像的特征向量,生成图像描述向量;从数据库中获取已有图像的图像描述向量,计算输入图像的图像描述向量与已有图像的图像描述向量的相似度;最大相似度大于等于相似度阈值时,将最大相似度对应的已有图像作为输入图像的相似图像,得到视觉位置识别结果。得到视觉位置识别结果。得到视觉位置识别结果。

【技术实现步骤摘要】
一种视觉位置识别方法、电子设备、介质


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种视觉位置识别方法、电子设备、介质。

技术介绍

[0002]视觉位置识别是一项判别图像是否属于相同地点的任务。传统视觉位置识别算法以词袋模型为突出代表,其主要利用从图像中提取的一些人工设计特征来进行图像相似度的判别。这类算法在场景特征与人工设计特征相近时效果较好,但随着环境复杂度的提升,人工设计特征表达能力不足的缺陷将导致整体算法的失效。
[0003]当前常见的深度学习视觉位置识别算法为两种利用有监督学习的思路:第一种是基于通用卷积神经网络模型进行迁移学习;第二种是设计专门用于视觉位置识别领域的网络模型,并进行从头开始的监督训练。这两种算法思路在环境复杂度较高的实际场景中准确度明显优于传统算法,但有监督学习过程对标注数据集的需求大大提高了相关研究的成本。
[0004]为探索低实现成本的算法思路,一些研究者将无监督学习引入了视觉位置识别领域,如降噪卷积自编码器结构,并成功解决了对标注样本的依赖问题。但是无监督学习思路在检测精度上难以与有监督学习思路相媲美,特别是在包含视角、物体、光照、季节等多种变化的高动态现实场景下。

技术实现思路

[0005]针对现有技术不足,本专利技术提供了一种视觉位置识别方法、电子设备、介质。
[0006]根据本专利技术实施例的第一方面,提供了一种视觉位置识别方法,所述方法包括:
[0007]获取输入图像;
[0008]利用卷积神经网络提取输入图像的特征向量;
[0009]基于无监督学习训练一主成分分析转换模型,利用主成分分析转换模型重构输入图像的特征向量,生成图像描述向量;
[0010]从数据库中获取已有图像的图像描述向量,计算输入图像的图像描述向量与已有图像的图像描述向量的相似度;最大相似度大于等于相似度阈值时,将最大相似度对应的已有图像作为输入图像的相似图像,得到视觉位置识别结果。
[0011]根据本专利技术实施例的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的视觉位置识别方法。
[0012]根据本专利技术实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的视觉位置识别方法。
[0013]本专利技术的有益效果为:
[0014]本专利技术提供了一种视觉位置识别方法,融合了无监督学习和深度学习,将卷积神经网络模型的输出向量映射至向量主干方向更清晰的主成分空间,提升了相似图像向量之
间的余弦相似度。此外,在本专利技术方法没有进行训练数据的标注和模型的再训练。本专利技术在保证低实现成本的前提下,提高了检测精度。
附图说明
[0015]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术实施例提供的一种视觉位置识别方法的流程图;
[0017]图2为AlexC3卷积神经网络模型的结构图;
[0018]图3为不同目标维度主成分向量空间的信息压缩特性的结果图;
[0019]图4为不同目标维度的主成分转换对算法的准确度性能影响的结果图;
[0020]图5为不同目标维度的主成分转换对算法的运行效率影响的结果图;
[0021]图6为本专利技术方法与多种对比算法在多个视觉位置识别数据集上的准确度性能对比实验的结果图;
[0022]图7为本专利技术实施例提供的一种电子设备的示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0025]如图1所示,本专利技术实施例提供了一种视觉位置识别方法,所述方法包括以下步骤:
[0026]步骤S1,获取输入图像,并对输入图像进行预处理。
[0027]具体地,所述步骤S1包括以下子步骤:
[0028]S101:对当前输入图像进行对比度增强。首先将图像由RGB颜色空间转换到YUV颜色空间,并把Y通道进行单独的直方图均匀化,使得图像的亮度值近似均匀分布到0~255的区间,以加大各特征之间的区分度;之后将图像转换回RGB颜色空间并归一化。
[0029]S102:将当前输入图像尺寸统一变换至224*224*3,保证其与后续的AlexC3模型预训练数据尺寸一致,降低神经网络失效的可能性,其中尺寸变换基于双三次插值方法,图像点(x,y)处的插值像素值p(x,y)可由下式算得:
[0030]p(x,y)=W
x
**
y
[0031]式中Q代表点(x,y)在原图对应位置附近16个点的像素值组成的矩阵,大小为4*4;权重系数矩阵W
x
的计算公式如下:
[0032][0033]步骤S2,利用卷积神经网络提取输入图像的特征向量。
[0034]在本实例中,所述卷积神经网络选用AlexC3模型。
[0035]其中,如图2所示,卷积神经网络AlexC3模型的构建包括以下步骤:
[0036]S201:首先以通用卷积神经网络模型Alexnet的结构和预训练参数为基础,充分利用通用卷积神经网络模型在大规模监督训练下获得的良好特征抽象能力。
[0037]S202:为提升模型的泛化性能,本专利技术以原模型的前三个卷积层作为AlexC3模型的主体结构,并结合Sigmoid层处理其输出,以取代最大池化和Relu激活操作。Sigmoid层的添加成功避免了图像特征向量元素值过大的问题,并保证了原特征的数据分布不变。其中Sigmoid层的具体计算公式如下:
[0038][0039]式中,为AlexC3模型第三个卷积层所输出特征向量的第i个元素值;表示Sigmoid层输出的特征向量的第i个元素值。
[0040]S203:为保证网络模型的高运行效率,本专利技术提出的AlexC3模型截断掉了原模型中所有的全连接层,从而在提升模型的推理效率的同时缩短了后续无监督学习过程的耗时。
[0041]S204:在确定了AlexC3模型的基本结构后,本专利技术将第一卷积层、第二卷积层的卷积核数量分别由96、256变为64和192,以确保模型结构适应单GPU运算,第三卷积层的卷积核数量保持不变。
[0042]S205:经以上步骤之后,得到了AlexC3模型,其具体结构包括依次连接的第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉位置识别方法,其特征在于,所述方法包括:获取输入图像;利用卷积神经网络提取输入图像的特征向量;基于无监督学习训练一主成分分析转换模型,利用主成分分析转换模型重构输入图像的特征向量,生成图像描述向量;从数据库中获取已有图像的图像描述向量,计算输入图像的图像描述向量与已有图像的图像描述向量的相似度;最大相似度大于等于相似度阈值时,将最大相似度对应的已有图像作为输入图像的相似图像,得到视觉位置识别结果。2.根据权利要求1所述的一种视觉位置识别方法,其特征在于,获取输入图像还包括:对输入图像进行对比度增强,将输入图像由RGB颜色空间转换到YUV颜色空间,并把Y通道进行单独的直方图均匀化,之后将输入图像转换回RGB颜色空间并归一化;基于双三次插值方法将输入图像的尺寸进行标准化。3.根据权利要求1所述的一种视觉位置识别方法,其特征在于,卷积神经网络包括依次连接的第一卷积层、第一Relu层、第一最大池化层、第二卷积层、第二Relu层、第二最大池化层、第三卷积层、Sigmoid层。4.根据权利要求3所述的一种视觉位置识别方法,其特征在于,卷积神经网络的构造过程为:卷积神经网络采用AlexC3模型;以通用卷积神经网络模型Alexnet的结构和预训练参数为基础;以通用卷积神经网络模型Alexnet的前三个卷积层作为AlexC3模型的主体结构,并结合Sigmoid层处理其输出,取代最大池化和Relu激活操作。截除通用卷积神经网络模型Alexnet中所有的全连接层;将第一卷积层、第二卷积层的卷积核数量设置为64和192,第三卷积层的卷积核数量保持不变。5.根据权利要求4所述的一种视觉位置识别方法,其特征在于,Sigmoid层的表达式如下:式中,为AlexC3模型中第三个卷积层所输出特征向量的第i个元素值;表示Sigmoid层输出的特征向量的第i个元素值;Relu层的表达式如下:output=max(0,input)式中,max()表示取最大值函数,input表示Relu层的输入数据,output表示Relu层的输出数据,Relu层会将所有小于等于0的输入数据输出为0,大于0的输入数据保持不变。6.根据权利要求1所述的一种视觉位置识别方法,其特征在于,基于无监督学习训练一主成分分析转换模型,利用主成分分析转换模型重构输入图像的特征向量,生成图像描述向量,包括:获取训练数据集;
提取训练数据...

【专利技术属性】
技术研发人员:胡松钰孙尉宁傅建中
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1