【技术实现步骤摘要】
一种基于自编码器词袋的视觉特征表示方法
本专利技术涉及一种多媒体分析、机器视觉等领域的视觉特征表示方法。特别是涉及一种基于自编码器词袋的视觉特征表示方法。
技术介绍
视觉表示是多媒体分析、机器视觉等领域的重要问题之一,它深刻地影响着多媒体检索、图像分类、场景分析、目标识别等诸多现实应用问题。近年来,随着网络技术的飞速发展,越来越多的数字图像开始充斥人们的生活,如何准确地表示这些视觉数据(特别是在大数据环境下),已经成为一个迫切需要解决的问题。词袋(BagofWords,BoW)模型最初应用于文档检索和分类领域,其基本思想是:统计语料库(corpus)中的所有单词组成字典,对于每一篇文档依据字典统计其中单词出现的频次,用由这些单词频率组成的直方图来表示这篇文档。BoW模型因其简单而有效的优点得到了广泛的应用,计算机视觉领域的研究者们将同样的思想应用到多媒体分析、机器视觉等领域,建立了由文本分析技术向视觉分析领域的过渡,相应的方法称作视觉词袋(BagofVisualWords,BoVW)。BoVW主要包含局部特征提取,视觉字典建立,局部特征量化,图像表示等四个步骤。其 ...
【技术保护点】
一种基于自编码器词袋的视觉特征表示方法,其特征在于,包括如下步骤:1)输入训练样本构成训练集;2)对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确度的影响;3)生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;4)使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;5)将图像的局部特征依据视觉字典量化为视觉单词;6)统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。
【技术特征摘要】
1.一种基于自编码器词袋的视觉特征表示方法,其特征在于,包括如下步骤:1)输入训练样本构成训练集;2)对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确度的影响;3)生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;所述的生成视觉字典具体过程包括:(1)从预处理后的训练集中随机选取多个训练样本,再从所述的每个训练样本中随机采集图像块;(2)将第(1)步采集的图像块作为自编码器的输入,训练自编码器;(3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中,得到所述随机采集图像块的特征;(4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;4)使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;5)将图像的局部特征依据视觉字典量化为视觉单词;6)统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。2.根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于,步骤2)所述的预处理是采用均值归一化或方差归一化进行的。3.根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于,步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。