一种基于图卷积神经网络的多模态分类方法技术

技术编号:26479469 阅读:20 留言:0更新日期:2020-11-25 19:24
本发明专利技术公开了一种基于图卷积神经网络的多模态分类方法,包括以下步骤:(一)首先需要用户准备好一个对象库,其中每个对象包含

【技术实现步骤摘要】
一种基于图卷积神经网络的多模态分类方法
本专利技术属于计算机科学与技术中人工智能领域
,具体涉及一种基于图卷积神经网络的多模态分类方法。
技术介绍
近年来,实际应用中出现着越来越多的多模态数据,例如,互联网中的多媒体数据往往包含多个模态信息:视频、图像以及周围出现的文本信息;网页数据也包含多个模态信息:网页自身的文本信息和链接到网页的超链接信息。这些多模态数据蕴含着巨大的经济价值,同时利用这些多模态数据往往能够获得比单模态数据更好的结果。例如,在基于信息流的用户内容推荐中,可以同时考虑信息流中的不同模态信息(例如图片、文本)来为用户推荐其感兴趣的内容。在实际应用中,我们很容易从不同模态中发现数据的多重结构信息,例如用户对特定的某一类相似的图片都表现出兴趣,而同时这些用户对另外一类相似的文本表现出兴趣,利用这些基于多模态的结构信息,能够进一步地提升性能。另一方面,图卷积神经网络能够将图结构信息嵌入到神经网络中,且适合处理大规模数据,但并不能被直接应用到多模态场景中,实际应用中的对象经常具有多模态信息,但是传统的多模态方法只是在多个模态上分别训练学习器然后将其集成,这样的方式容易忽略不同模态中有用的结构信息为此我们提出一种基于图卷积神经网络的多模态分类方法。
技术实现思路
本专利技术的目的在于提供一种基于图卷积神经网络的多模态分类方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于图卷积神经网络的多模态分类方法,包括以下步骤:(一)首先需要用户准备好一个对象库,其中每个对象包含个模态。接下来通过人工标注的方法为库中的少量对象提供一个类别标记,这些有类别标记的对象称为初始的有标记训练数据,它们和剩余的大量未标记对象一同构成训练数据集。(二)通过特征提取算法,将训练对象库中的对象转化成相应的特征表示,即提取对象库中对象的特征,将所有对象转化成相应的特征向量。由于对象包含个模态,最终得到的每个对象的特征向量也分为个部分。(三)对象的特征提取方法也有很多种,例如对于网页中的一段文本,文本中的每个词出现的次数都可以作为该对象的一个特征,文本的长度也可以作为该网页的一个特征。假设两个模态上特征的个数分别为和,那么每个对象就可以对应到和维欧式空间的两个特征向量。(四)将训练数据集和选定的基分类器类型输入到本专利技术提出的多模态图卷积神经网络训练算法中,经过训练后就可以得到最终的分类器。(五)在预测阶段,用户根据待测对象在个模态上的特征向量分别添加条最近邻边指向对象库,再讲得到的新图与得到特征向量分别输入给训练得到的个分类器,分类器就会给用户返回该对象的预测结果,然后在个预测结果中选择置信度较高的那个作为最终标记输出。与现有技术相比,本专利技术的有益效果是:本专利技术通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息,在多模态图卷积神经网络的每一层中通过分配可训练的权值,使得每个模态所学的表示能够逐步考虑其它模态的结构信息。此外,本专利技术虽然需要建图,但是可以被用于归纳式的学习场景,在训练时无需得到待测样本。附图说明图1是本专利技术的流程图;图2是本专利技术中多模态图卷积神经网络训练算法的流程图;图3是本专利技术中多模态图卷积神经网络预测算法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。步骤1,建立一个包含个信息的对象库作为训练对象库,通过人工标注的方式为对象库中的少量对象赋予一个类别标记,使用代表第个对象的类别标记。对于二分类问题,比如说军事新闻网页是第一类,娱乐新闻网页是第二类。如果第个对象中包含的内容是军事新闻,则,即该对象属于第一类,如果对象中用户包含的内容是娱乐新闻,则,该网页属于第二类。假设初始共有个网页被赋予了标记,剩下的个对象没有赋予标记。步骤2,通过特征提取算法,提取对象库中对象的特征,将所有对象转化成相应的双模态特征向量对;使用表示其中经过特征提取后的第个对象的双模态特征向量对,也可以称其为样本;双模态的特征可以用矩阵和表示。步骤3,让用户选择需要使用的及距离空间,可以是各种常见的距离空间,包括欧氏距离,Cosine距离等,然后根据所选的值及距离空间建立-近邻图,对于模态用邻接图表示为。假设所使用的距离度量可以表示为,那么若样本是样本的近邻,则,其中为超参数,通常从中选取;步骤4,使用多模态图卷积神经网络训练算法训练分类器,其中多模态图卷积神经网络的具体结构为:1)隐层结构为:,对于,其中是第个网络在第层的表示,是可训练参数,。混合图卷积被定义为,其中是图卷积权重,,其中代表的第行第个元素。2)输出层结构为:,其中是卷积层层数。步骤5,得到待预测样本,用与步骤2相同的特征提取算法提取特征,用与步骤3相同的距离度量建立新图,建图的方法为除了原有的边以外,为每一个待测样本寻找其在原有对象库中的近邻,并将其连边。步骤6,将特征与新图一起输入步骤4中训练好的多模态图卷积神经网络。最后根据输出值推断出预测标记。如图2所示,加权多模态图卷积神经网络方法的训练流程为:步骤7,最大迭代轮数,图卷积网络层数;初始化多模态图卷积神经网络,将其中图卷积层中的参数初始化为;步骤8,若,转到步骤11;否则继续训练转到步骤9步骤9,分别为模态,固定,使用有标记数据及损失函数计算损失,并使用优化器例如SGD或者Adam优化算法更新网络中参数。步骤10,通过分别为模态,固定,使用有标记数据及损失函数计算损失,并使用优化器例如SGD或者Adam更新网络中参数,其中根据对应梯度的计算方法为之后令迭代计数器t加1,转到步骤8。步骤11,输出得到的网络。如图3所示,加权多模态图卷积神经网络方法的预测流程为:步骤12,对于待预测的个样本,首先利用步骤2中的方法提取特征步骤13,再利用步骤3所使用的同样的距离度量为每个待预测样本在对象库中寻找个最近的邻居并对应的新图赋权,其中。步骤14,预测时使用的结果,其中,是待测样本的特征矩阵。步骤15,先集成各模态预测结果。步骤16,再根据对各类的预测值输出结果,其中对应的是待预测样本。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种基于图卷积神经网络的多模态分类方法,包括以下步骤:/n(一)建立一个对象库作为训练数据集,其中对象库包含n个对象,给对象库中的少量对象赋予一个类别标记,用l表示有标记的对象数目,u表示未标记的对象数目;/n(二)通过特征提取算法,提取对象库中不同模态对应的特征,假设具有V个模态,为每个对象生成特征向量对(特征1,特征2,...,特征V)。/n(三)为每一个模态的特征建立一个k-近邻图,对于模态v,其邻接矩阵记作A

【技术特征摘要】
1.一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)建立一个对象库作为训练数据集,其中对象库包含n个对象,给对象库中的少量对象赋予一个类别标记,用l表示有标记的对象数目,u表示未标记的对象数目;
(二)通过特征提取算法,提取对象库中不同模态对应的特征,假设具有V个模态,为每个对象生成特征向量对(特征1,特征2,...,特征V)。
(三)为每一个模态的特征建立一个k-近邻图,对于模态v,其邻接矩阵记作Av;
(四)将数据的特征向量以及每一个模态的k-近邻图输入到多模态图卷积神经网络中,为每个模态分别训练得到一个分类器;
(五)获取待测对象,用t表示待测对象数目并用步骤(二)中相同的方法得到其特征向量对,用步骤(三)中的建图方法将新的样本加入到图中。
(六)将各个模态上的特征向量及所有更新后的k-近邻图输入步骤(四)所训练得到的对应分类器中,获得V个预测标记,并输出其中置信度较高的那个作为最终标记。


2.如权利要求1所述的基于图卷积神经网络的多模态分类方法,其特征在于,所述步骤(四)中使用了新的多模态图卷积神经网络,其具体结构为:
在训练时,所实用的在第v个模态中训练的网络:
(1)隐层结构为:对于k∈{1,2,…,Kv-1},其中是第v个网络在第K层的表示,是可训练参数,
混合图卷积被定义为其中是图卷积权重,Dv=∑jAv(ij),其中Av(ij)代表Av的第i行第j个元素,
(2)输出层结构为:其中Kv是第v个网络的多模态图卷积层层数。
在预测时,所使用的结构有:
S1...

【专利技术属性】
技术研发人员:王魏李述
申请(专利权)人:南京智谷人工智能研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1