基于半监督学习的图像自动标注方法技术

技术编号:17162566 阅读:35 留言:0更新日期:2018-02-01 20:43
本发明专利技术公开一种基于半监督学习的图像自动标注方法,首先将数据集划分为训练数据集、未标记数据集和测试集。接着提取训练样本的SIFT特征和HOG特征来训练LDA_SVM分类器;提取颜色和纹理特征来训练神经网络。之后利用未标记数据,让两个分类器同时对同一未标记样本进行标记预测,并根据分类器对未标记样本分类精度的贡献,用自适应加权融合策略对两个分类器的分类结果进行加权融合,得到样本的最终预测标记概率向量。最后用置信度高的样本及其预测标记对两个分类器进行更新,直到达到预设的最大迭代次数。本发明专利技术可以充分利用未标记样本挖掘图像特征的内在规律,有效地减少分类器训练时所需的标注样本数量,并获得较好的标注效果。

Automatic image annotation based on semi supervised learning

【技术实现步骤摘要】
基于半监督学习的图像自动标注方法
本专利技术涉及图像检索
,具体涉及一种基于半监督学习的图像自动标注方法。
技术介绍
随着网络和数码设备的普及,各种媒体图像数据飞速增长,如何对它们进行有效的组织和管理,给用户高效率的浏览和检索成为研究者广泛研究的问题。图像检索自上个世纪70年代开始就成为非常活跃的研究领域,目前应用比较广泛的图像检索技术有基于文本的图像检索技术(Text-basedImageRetrieval,TBIR)和基于内容的图像检索技术(Content-basedImageRetrieval,CBIR)。由于TBIR技术存在着明显的缺陷,特别是在图像的数量非常多时,手工标注图像所需的工作量非常大,而且手工标注的主观性和不精确性很可能导致图像在检索过程失配;而CBIR技术存在着突出的低层特征与高层语义之间的“语义鸿沟”问题,因而这两种方法都很难应用于目前大规模的图像数据库管理。图像自动标注就是让计算机自动地学习已标注图像语义概念空间与视觉特征空间之间潜在的关系来给未标注图像加上能够反映其内容的语义关键词。图像自动标注可以有效改善目前图像检索的困境,使检索在保留基本文本关键本文档来自技高网...
基于半监督学习的图像自动标注方法

【技术保护点】
基于半监督学习的图像自动标注方法,其特征是,包括步骤如下:步骤1、将给定的数据集划分为3个子数据集,即训练数据集、未标记数据集和测试数据集;步骤2、LDA_SVM分类器训练阶段;步骤2.1、提取训练数据集中的训练图像的SIFT特征和HOG特征作为第一特征集,采用词袋法量化其视觉特征,得到每幅训练图像的词袋表示;步骤2.2、应用LDA建模训练图像的视觉特征,得到训练图像的各个视觉单词主题分布与每幅训练图像的视觉主题分布;步骤2.3、用步骤2.2所得的视觉主题分布和它们的原始标注构造SVM多类分类器,得到当前训练好的LDA_SVM分类器;步骤3、神经网络分类器训练阶段;步骤3.1、提取训练数据集中...

【技术特征摘要】
1.基于半监督学习的图像自动标注方法,其特征是,包括步骤如下:步骤1、将给定的数据集划分为3个子数据集,即训练数据集、未标记数据集和测试数据集;步骤2、LDA_SVM分类器训练阶段;步骤2.1、提取训练数据集中的训练图像的SIFT特征和HOG特征作为第一特征集,采用词袋法量化其视觉特征,得到每幅训练图像的词袋表示;步骤2.2、应用LDA建模训练图像的视觉特征,得到训练图像的各个视觉单词主题分布与每幅训练图像的视觉主题分布;步骤2.3、用步骤2.2所得的视觉主题分布和它们的原始标注构造SVM多类分类器,得到当前训练好的LDA_SVM分类器;步骤3、神经网络分类器训练阶段;步骤3.1、提取训练数据集中的训练图像的颜色特征和纹理特征作为第二特征集;步骤3.2、用第二特征集和对应的标签信息一起输入到神经网络进行训练,得到当前训练好的神经网络分类器;步骤4、协同训练阶段;步骤4.1、提取未标记数据集中的未标记图像的SIFT特征和HOG特征,并采用词袋法量化其视觉特征,得到每幅未标记图像的词袋表示;步骤4.2、用步骤2.2所得到的视觉单词主题分布学习未标记图像的视觉主题分布;步骤4.3、将学习到的图像视觉主题分布输入当前训练好的LDA_SVM分类器,得到未标记图像的第一标记预测概率向量;步骤4.4、用当前训练好的神经网络分类器对未标记数据集中的未标记图像进行标记预测,得到未标记图像的第二标记预测概率向...

【专利技术属性】
技术研发人员:李志欣林兰张灿龙
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1