一种基于词嵌入的深度零样本分类方法技术

技术编号:18668674 阅读:19 留言:0更新日期:2018-08-14 20:45
本发明专利技术公开了一种基于词嵌入的深度零样本分类方法,在学习阶段未出现的类别,依然可以在预测阶段被识别。本发明专利技术提出了基于词嵌入和深度特征提取的零样本图像学习模型,该方法通过强大的深度神经网络学习一个图像特征和语义特征联合嵌入的子空间,利用词向量的语义能力,达到图像的零样本学习目的。本发明专利技术不仅提出了深度学习方法与零样本学习结合的模型,同时还针对其结合部分嵌入空间做了大量改进,为图像零样本,亦或者其他模态的零样本学习提供参考和指导,克服传统零样本学习中样本属性定义不明确、人工特征提取等等缺点。本发明专利技术广泛用于端到端的类别预测任务中,特别适合训练样本不足甚至是缺少某一类训练样本的类别预测任务。

A deep zero sample classification method based on word embedding

The invention discloses a depth zero sample classification method based on word embedding, and classes not appearing in the learning stage can still be recognized in the prediction stage. A zero-sample image learning model based on word embedding and depth feature extraction is proposed. The method learns a subspace of image feature and semantic feature combined embedding through a powerful depth neural network, and achieves the goal of zero-sample image learning by utilizing the semantic ability of word vector. The invention not only proposes a model combining depth learning method with zero-sample learning, but also makes a lot of improvements to the embedded space of the combination part, providing reference and guidance for zero-sample image learning or other modal zero-sample learning, overcoming the ambiguity of sample attribute definition and artificial features in traditional zero-sample learning. Extraction and so on. The invention is widely used in end-to-end class prediction tasks, especially for class prediction tasks with insufficient training samples or even without a certain class of training samples.

【技术实现步骤摘要】
一种基于词嵌入的深度零样本分类方法
本专利技术涉及模式识别
,特别是一种基于词嵌入的深度零样本分类方法。
技术介绍
零样本学习(ZSL)模型是一种特殊的机器学习问题,属于迁移学习的极端情况,即在训练样本中缺失某几类样本或者训练数据集中从未存在某几类样本,然而实际情况需要我们依然能够在测试任务中识别出这些训练集缺失的类别样本。零样本学习在各种实际生活中有大量的应用,最主要的应用就是针对数据不够多的情况下使用,如何有效的提高零样本学习效率具有十分重要意义。由于训练集样本的缺失,传统机器学习方法无法完成零样本学习任务,研究者们提出一种全部类别共同映射的中间层特征空间,建立一种训练类别信息与测试类别信息的连接空间,将原本使用类别信息分类能力转化到该中间层,摆脱了必须使用类别信息分类的限制。目前主要的技术手段是选择属性空间作为中间层特征空间。属性空间是人为的定义的特征空间,如“形状”“纹理”“是否含有某个属性”,这些可以描述类别的语义特性,属性作为不同类别共享的中间层语义特征,不仅可以弥补底层的视觉特征和高层的类别特征之间的语义鸿沟,还可是通过不同属性的组合,学习到新的类别。但是基于属性的零样本学习有着本质的缺点,各个类别的属性是需要人为设定的,分类效果好坏与否取决于人为的属性选择的好坏,不同种类的图像分类需要不同领域的专业人士来做属性标定,然后才能实现分类,并不是一种端到端的实现方法。而且人为的设定属性会消耗人力物力,效率不高。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足而提供一种基于词嵌入的深度零样本分类方法,利用文本数据集易获取的优势和词向量语义推理特性,用词向量替代属性,解决了人为属性标定环节,实现图像的零样本学习。本专利技术不仅能挖掘视觉和文本模态之间的联系和分类信息,还使用了强大的深度神经网络建立了输入图像直接输出类别的端到端过程。本专利技术为解决上述技术问题采用以下技术方案:根据本专利技术提出的一种基于词嵌入的深度零样本分类方法,包括以下步骤:步骤1,输入图像训练集xi表示图像训练集的第i张图片,1≤i≤n1,n1为图像训练集图片数量,训练卷积神经网络,得到卷积神经网络参数θx;步骤2,输入文本训练集yj表示文本训练集的第j个单词,1≤j≤n2,n2为文本训练集单词数量,且n2>n1,训练文本神经网络,得到文本神经网络参数θy;步骤3,改变步骤1和步骤2的网络结构,去掉卷积神经网络和文本神经网络的顶层,各自新增一个全连接层:图像特征映射层和文本特征映射层,使卷积神经网络和文本神经网络在顶层相互连接,建立公共子空间;再次输入图像和文本训练集,通过如下损失函数L训练两者的映射层参数Wx和Wy:其中,Fi和Gj分别表示第i张图片和第j个单词的特征,Wx和Wy为图像特征映射层参数和文本特征映射层参数,为和的内积,和分别表示图像和单词经过映射后的公共子空间特征,sigmoid(*)为激活函数,上标T表示转置,Sij为相似矩阵,当xi和yj为同一种类别时Sij值为1,否则为0;γ和η是超参数,为F范数,e为自然底数;步骤4,通过随机梯度下降算法SGD交替迭代优化步骤3的损失函数L,使其最小;计算和并通过反向传播算法的链式法则来更新Wx、θx、Wy和θy;步骤5,将测试图像xq输入到神经网络中得到测试图片的公共子空间特征在该空间中使用最近邻分类器直接判断测试图像类别cq;其中,c为任意文本类别,是任意文本的特征,D(·)是求其欧几里得距离函数。作为本专利技术所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤1和步骤2中,输入图像训练集的样本为二维图像矩阵,输入文本训练集的样本为词袋向量。作为本专利技术所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤3中学习过程是一个优化问题,目的优化两个神经网络的权重参数θx和θy以及学习两个空间映射参数Wx和Wy的最优值。作为本专利技术所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤4中所述交替迭代优化步骤3的损失函数L,具体如下:1)固定文本神经网络参数,优化卷积神经网络参数,2)固定卷积神经网络参数,优化文本神经网络参数。作为本专利技术所述的一种基于词嵌入的深度零样本分类方法进一步优化方案,步骤5中判断测试图像类别具体如下:1)针对训练集中已存在的类别图像:在公共子空间中,与测试图像欧式距离最近的样本类别即为判定类别;2)针对训练集中不存在的类别图像:文本训练集含有一些新的类别,这些类别的特征并不是独立的,而是与已有类别存在相关性,依据步骤4学习到的映射参数Wx和Wy,测试图像被判定为新的类别;测试阶段将测试图像的特征与混合原有类别和新的类别的特征中做最近邻分类,输出其类别。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:(1)本专利技术创造性的将深度神经网络特征提取应用在零样本学习中,在此基础上设计了一种有效的基于语义的词嵌入方法,通过结合两个模态各自不同的特点,并学习模态映射关系,提出适用零样本分类的图像识别方法;(2)本专利技术方法属于多模态学习方法,通过引入语义模态,来解决视觉模态上的零样本问题,最大化模态数据之间的语义相关性,挖掘不同模态之间的语义信息;(3)本专利技术属于一种端到端的学习方法,相比传统机器学习算法和属性学习模型,深度神经网络和词嵌入模型具有自动的无需人为参与的特性,大大提高效率和人为干扰因素。附图说明图1是本专利技术的方法流程图。图2是本专利技术实施例的基于词嵌入的图像零样本学习模型。具体实施方式下面结合附图对本专利技术的技术方案做进一步的详细说明:本
技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本专利技术提供一种基于词嵌入模型的深度零样本图像学习算法,通过结合文本特征,实现图像特征的零样本分类,包括如下步骤:步骤1,输入图像训练集xi表示图像训练集的第i张图片,1≤i≤n1,n1为图像训练集图片数量,训练卷积神经网络,得到卷积神经网络参数θx;步骤2,输入文本训练集yj表示文本训练集的第j个单词,1≤j≤n2,n2为文本训练集单词数量,且n2>n1,训练文本神经网络,得到文本神经网络参数θy;步骤3,改变步骤1和步骤2的网络结构,去掉卷积神经网络和文本神经网络的顶层,各自新增一个全连接层:图像特征映射层和文本特征映射层,使卷积神经网络和文本神经网络在顶层相互连接,建立公共子空间;再次输入图像和文本训练集,通过如下损失函数L训练两者的映射层参数Wx和Wy:其中,Fi和Gj分别表示第i张图片和第j个单词的特征,Wx和Wy为图像特征映射层参数和文本特征映射层参数,为和的内积,和分别表示图像和单词经过映射后的公共子空间特征,sigmoid(*)为激活函数,上标T表示转置,Sij为相似矩阵,当xi和yj为同一种类别时Sij值为1,否则为0;γ和η是超参数,为F范数,e为自然底数;步骤4,通过随机梯度下降算法SGD交替迭代优化步骤3的损失函数L,使其最小;计算本文档来自技高网
...

【技术保护点】
1.一种基于词嵌入的深度零样本分类方法,其特征在于,包括以下步骤:步骤1,输入图像训练集

【技术特征摘要】
1.一种基于词嵌入的深度零样本分类方法,其特征在于,包括以下步骤:步骤1,输入图像训练集xi表示图像训练集的第i张图片,1≤i≤n1,n1为图像训练集图片数量,训练卷积神经网络,得到卷积神经网络参数θx;步骤2,输入文本训练集yj表示文本训练集的第j个单词,1≤j≤n2,n2为文本训练集单词数量,且n2>n1,训练文本神经网络,得到文本神经网络参数θy;步骤3,改变步骤1和步骤2的网络结构,去掉卷积神经网络和文本神经网络的顶层,各自新增一个全连接层:图像特征映射层和文本特征映射层,使卷积神经网络和文本神经网络在顶层相互连接,建立公共子空间;再次输入图像和文本训练集,通过如下损失函数L训练两者的映射层参数Wx和Wy:Fi=f(xi;θx),Gj=g(yj;θy),其中,Fi和Gj分别表示第i张图片和第j个单词的特征,Wx和Wy为图像特征映射层参数和文本特征映射层参数,为和的内积,和分别表示图像和单词经过映射后的公共子空间特征,sigmoid(*)为激活函数,上标T表示转置,Sij为相似矩阵,当xi和yj为同一种类别时Sij值为1,否则为0;γ和η是超参数,为F范数,e为自然底数;步骤4,通过随机梯度下降算法SGD交替迭代优化步骤3的损失函数L,使其最小;计算和并通过反向传播算法的链式法则来更新Wx、θx、Wy和θy;步骤5,将测试图像xq输入到神经网络中...

【专利技术属性】
技术研发人员:秦牧轩荆晓远吴飞孙莹
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1