一种基于点击特征预测的图像分类方法技术

技术编号:19141830 阅读:24 留言:0更新日期:2018-10-13 08:55
本发明专利技术公开了一种基于点击特征预测的图像分类方法。本发明专利技术步骤如下:1、借助有文本点击信息的图像数据集;利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量;2、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;3、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;4、通过反向传播算法对步骤2中的网络参数进行训练,直至整个网络模型收敛。本发明专利技术使得预测的点击特征更为准确。

An image classification method based on click feature prediction

The invention discloses an image classification method based on click feature prediction. The steps of the invention are as follows: 1. Using the image data set with text Click information, constructing the text Click feature vector of each picture by using word segmentation technology and word frequency reverse file frequency algorithm; 2. Under the source click data set, aiming at minimizing the prediction error of the click feature, constructing the nonlinear word embedding with position constraints. In order to realize the prediction of click feature based on visual features, and use the fused depth vision and predictive click feature to classify any target image set without click information; 3. Construct a multi-task, cross-modal migration depth learning framework to minimize the loss of classification and prediction at the same time, use the source click data set. The target data set trains depth vision and word embedding model; 4. The network parameters in step 2 are trained by back propagation algorithm until the whole network model converges. The invention makes the predicted click feature more accurate.

【技术实现步骤摘要】
一种基于点击特征预测的图像分类方法
本专利技术涉及细粒度图像分类及点击数据预测领域,尤其涉及基于点击特征预测的图像分类方法。
技术介绍
细粒度视觉分类(Fine-GrainedVisualCategorization,FGVC)是对视觉上非常相似的目标进行区分的过程,如鸟、狗、花的种类等,这些子类图像在视觉上差距甚小。因此传统的利用图像视觉特征(如轮廓,颜色等)的分类方法无法取得令人满意的效果,并存在较大的“语义鸿沟”。为了解决语义鸿沟,研究者们尝试引入带有语义信息的图像特征。用户点击特征便是其中之一,它是通过搜索引擎(如Google、百度、Bing等)上获取的用户点击数据得到的。通过点击数据,图像可以被表征为查询文本点击次数向量,这种特征向量具有良好的表达语义能力。尽管点击数据具有丰富的语义信息,但目前大多数图像分类数据集不包含点击信息,且收集图片的点击数据需要大量的人工标注且不现实。为了解决这个问题,我们提出了点击特征预测的方法,并利用融合的视觉与预测点击特征进行图像分类。预测出的点击数据具有一定的表达语义信息的能力,并降低了数据收集的难度和人工成本。将其与视觉特征相融合进行图像分类,对促进细粒度图像分类的效果具有一定的可行性和实用性,是值得研究的。此外,点击数据作为目前科研的热门方向,将其应用在图像识别领域使得本专利技术具有一定的前沿性和创新性,直接从图像本身预测点击特征的方法也使得该专利技术有更强的现实性和普适性。
技术实现思路
本专利技术提供了一种基于点击特征预测的图像分类方法,该方法将点击预测和图像分类融合在一个统一的深度神经网络中、完成了一个端gb到端的深度学习模型,该模型能同时完成点击特征的预测及图像的分类任务,在点击特征预测方面,利用带位置约束的损失函数使得预测出的点击特征更加准确,在图像分类任务方面,利用预测出的点击特征改善分类效果,取得了比仅利用视觉特征分类的模型更好的效果一种基于点击特征预测的图像分类方法,其步骤如下:步骤(1)、借助有文本点击信息的图像数据集(源点击数据集),利用分词技术及词频-逆向文件频率(tf-idf)算法构建每张图片的文本点击特征向量。步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类。步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型。步骤(4)、通过反向传播算法对步骤(2)中的网络参数进行训练,直至整个网络模型收敛。步骤(1)所述的借助有文本点击数据的图像数据集,是指利用分词技术及词频-逆向文件频率(tf-idf)算法构建每张图片的文本点击特征向量,具体如下:步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数。步骤(1)中的特征向量构建的过程如下:将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征。其中具体公式如下:其中,ni,j是单词i出现在文本j中出现次数,而是文本j中所有单词出现次数的总和。D是文本集中的文本j出现的总数,Di是包含单词i的文本数;步骤(2)所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征具体公式如下:其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作,包括batchnormalization、RELU等。2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时,使用融合的点击次数向量和点击文本集误差。针对第i个图像样本,预测误差的具体公式如下:其中,τ为权重参数,为第i个样本真实的点击次数特征向量vi与预测点击特征之间的误差;而为点击文本集误差,用来度量预测被点与真实被点的文本集之间的距离:其中,∪、\分别表示并集与差集。将公式4重写为如下文本点击有无向量S(·)之间的误差:S(vi)和分别表示真实的点击有无向量与预测的点击有无向量;2-3.将公式(4)中的文本点击有无向量S(·),可以被如下光滑函数近似:其中,T、B分别为误差阈值、带宽参数。公式6对特征小于0的部分近似为0值,大于0的部分近似为1。步骤(3)构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用融合的源、目标数据集训练深度视觉与词嵌入模型,具体如下:3-1.多任务是指在优化点击预测模型中,同时最小化预测和分类误差,使其预测的点击特征同时适用于预测和分类任务。针对此问题,构造如下多误差损失函数:其中,o为预测类别概率分布,yi为样本i真实类别,λ为另一权重参数。3-2.跨模态:分类特征不仅是图片的视觉特征,还融合了预测的文本点击特征,图像的跨模态特征的具体公式如下:其中,xi是跨模态特征,zi和分别是经过batchnormalization的视觉特征和预测的点击特征。3-3.跨领域:利用源点击数据集进行点击预测,并利用预测的点击特征对目标数据集进行分类。即构建了一个统一的框架实现对两种不同数据集的分类,并通过“图像-点击相关性”模型的迁移,使得没有点击数据的目标数据集也能进行基于用户点击的图像分类。该模型的多域损失函数公式如下:其中,Is表示源点击数据集中的图片,It表示目标数据集中的图片,μ为权衡不同数据集模型的参数。步骤(4)通过反向传播算法对步骤(3)中的深度网络模型参数进行训练,直至整个网络模型收敛,其具体过程如下:针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:其中,θ*为深度网络模型参数。本专利技术有益效果:本专利技术对大部分数据集没有点击信息的现实问题,提出了利用预测点击特征进行图像分类,一定程度上解决了图像识别中的“语义鸿沟”问题,同时,提出了一个统一框架将点击特征预测和图像分类融合到了一个网络模型中,实现了端对端的多任务跨模态的迁移神经网络训练。此外,点击数据作为目前的研究热点,合理的使用也使得本专利技术更具有科研前沿性和创新性,点击数据直接从原图像预测的特性也使得该专利技术有更强的现实性和普适性,我们提出的改善的点击数据预测方法也使得预测的点击特征更为准确。附图说明图1是本专利技术方法的具体流程示意图。图2是本专利技术方法中预测点击特征时的非线性词嵌入模型。图3是本专利技术方法中构造的网络框架示意图。图4为本专利技术预测的点击特征示意图。具体实施方式下面结合附图对本专利技术做进一步具体说明。如图1所示,本专利技术提供一种基于点击特征预测的图像分类方法。步骤(1)所述的步骤(1)所述的借助有图像文本点击的数据集,利用分词技术及tf-idf为每张原数据图片构建点击特征,具体如下:1-1.为了满足实验需求,我们利用微软提供的进行狗种分类的点击图像数据集Clickture-Dog。该数据集有344类狗的图片,我本文档来自技高网...

【技术保护点】
1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量;步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;步骤(4)、通过反向传播算法对步骤(2)中的网络参数进行训练,直至整个网络模型收敛。

【技术特征摘要】
1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量;步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;步骤(4)、通过反向传播算法对步骤(2)中的网络参数进行训练,直至整个网络模型收敛。2.根据权利要求1所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(1)所述的借助有文本点击数据的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;步骤(1)中的特征向量构建的过程如下:将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和;D是文本集中的文本j出现的总数,Di是包含单词i的文本数。3.根据权利要求2所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(2)所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征具体公式如下:其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作;2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数...

【专利技术属性】
技术研发人员:谭敏俞俊张宏源
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1