The invention discloses an image classification method based on click feature prediction. The steps of the invention are as follows: 1. Using the image data set with text Click information, constructing the text Click feature vector of each picture by using word segmentation technology and word frequency reverse file frequency algorithm; 2. Under the source click data set, aiming at minimizing the prediction error of the click feature, constructing the nonlinear word embedding with position constraints. In order to realize the prediction of click feature based on visual features, and use the fused depth vision and predictive click feature to classify any target image set without click information; 3. Construct a multi-task, cross-modal migration depth learning framework to minimize the loss of classification and prediction at the same time, use the source click data set. The target data set trains depth vision and word embedding model; 4. The network parameters in step 2 are trained by back propagation algorithm until the whole network model converges. The invention makes the predicted click feature more accurate.
【技术实现步骤摘要】
一种基于点击特征预测的图像分类方法
本专利技术涉及细粒度图像分类及点击数据预测领域,尤其涉及基于点击特征预测的图像分类方法。
技术介绍
细粒度视觉分类(Fine-GrainedVisualCategorization,FGVC)是对视觉上非常相似的目标进行区分的过程,如鸟、狗、花的种类等,这些子类图像在视觉上差距甚小。因此传统的利用图像视觉特征(如轮廓,颜色等)的分类方法无法取得令人满意的效果,并存在较大的“语义鸿沟”。为了解决语义鸿沟,研究者们尝试引入带有语义信息的图像特征。用户点击特征便是其中之一,它是通过搜索引擎(如Google、百度、Bing等)上获取的用户点击数据得到的。通过点击数据,图像可以被表征为查询文本点击次数向量,这种特征向量具有良好的表达语义能力。尽管点击数据具有丰富的语义信息,但目前大多数图像分类数据集不包含点击信息,且收集图片的点击数据需要大量的人工标注且不现实。为了解决这个问题,我们提出了点击特征预测的方法,并利用融合的视觉与预测点击特征进行图像分类。预测出的点击数据具有一定的表达语义信息的能力,并降低了数据收集的难度和人工成本。将其与视觉特征相融合进行图像分类,对促进细粒度图像分类的效果具有一定的可行性和实用性,是值得研究的。此外,点击数据作为目前科研的热门方向,将其应用在图像识别领域使得本专利技术具有一定的前沿性和创新性,直接从图像本身预测点击特征的方法也使得该专利技术有更强的现实性和普适性。
技术实现思路
本专利技术提供了一种基于点击特征预测的图像分类方法,该方法将点击预测和图像分类融合在一个统一的深度神经网络中、完成了一个端g ...
【技术保护点】
1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量;步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;步骤(4)、通过反向传播算法对步骤(2)中的网络参数进行训练,直至整个网络模型收敛。
【技术特征摘要】
1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量;步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;步骤(4)、通过反向传播算法对步骤(2)中的网络参数进行训练,直至整个网络模型收敛。2.根据权利要求1所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(1)所述的借助有文本点击数据的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;步骤(1)中的特征向量构建的过程如下:将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和;D是文本集中的文本j出现的总数,Di是包含单词i的文本数。3.根据权利要求2所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(2)所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征具体公式如下:其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作;2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数...
【专利技术属性】
技术研发人员:谭敏,俞俊,张宏源,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。