一种基于双向CNN的跨模态语义聚类方法技术

技术编号:30431147 阅读:37 留言:0更新日期:2021-10-24 17:23
本发明专利技术公开了一种基于双向CNN的跨模态语义聚类方法,首先进行数据的预处理,对训练集的文本样本进行预训练;然后构建跨模态检索网络,通过训练集训练跨模态检索网络,计算网络的损失函数;进行反向传播,通过选定的优化器和相应参数对连接权重进行优化;训练多轮后得到最终的网络模型;最后通过测试集的对训练好的模型进行测试,计算各项评价指标。本发明专利技术方法利用语义信息的聚类,来提高了跨模态检索的精确度和效率。本发明专利技术设计了一项在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失来帮助语义聚类,不仅加强了不同类别间的识别能力,而且增强了不同模式之间的相关性。模式之间的相关性。模式之间的相关性。

【技术实现步骤摘要】
一种基于双向CNN的跨模态语义聚类方法


[0001]本专利技术涉及计算机视觉领域,尤其涉及基于深度学习的跨模态检索方法。

技术介绍

[0002]在新媒体信息爆炸的时代,每一位新媒体用户都会随时随地发布各种各样的不同模态的多媒体信息,例如图片、音乐、视频或是文字。由于多媒体信息的迅速发展,随着多媒体信息数量、种类的增多,用户想要准确的获取自己想要的信息也变得困难起来,获取信息的同时,总是附随着相关度不同的其他信息。这些数据,不仅数量庞大,而且多数都是没有标签的数据,而且不同的模态,数据之间存在着“异构鸿沟”,所以跨模态检索的主要技术问题就是跨过这些不同模态数据之间的“鸿沟”,提取检索数据的精度和准确度。
[0003]跨模态检索技术的核心是衡量不同数据之间的相似性。由于“异构鸿沟”的存在,所以跨模态检索的关键在于如何匹配不同模态的信息。迄今为止,大多数跨模态检索是将不同模态的样本映射到同一子空间。还可以根据使用信息分类为非监督方法和监督方法。监督方法则是使用了样本所带有的标签信息。
[0004]虽然,跨模态检索都是基于映射于同一子空本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双向CNN的跨模态语义聚类方法,其特征在于,步骤如下:步骤1:数据的预处理,对训练集的文本样本进行预训练;采用现有的数据集,按设定比例将其分为训练集和测试集,对训练集的文本样本进行预训练;步骤2:构建跨模态检索网络;跨模态检索网络采用双CNN同时进行;通过ResNet

50网络提取图片样本的特征向量;对于文本样本,先利用Word2Vec预训练词向量,再通过TextCNN提取文本的特征向量;步骤3:通过训练集训练跨模态检索网络;步骤4:计算网络的损失函数;进行反向传播,通过选定的优化器和相应参数对连接权重进行优化;训练多轮后得到最终的网络模型;寻找一个有效的转移矩阵将样本从源空间投射到目标空间;样本转移后,在其类别聚类中心对应的目标空间中进行聚类;定义损失函数为在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失;目标空间中样本和聚类中心的损失即学习了一个维不变矩阵,使类别分布的方差最小;通过最小化类别分布的MMD来缩小不同模态之间的类别分布差异;判别损失即为标签预测损失,应用分类器来预测公共空间种样本的类别标签;步骤5:对网络模型进行测试:通过测试集的对训练好的模型进行测试,计算各项评价指标。2.根据权利要求1所述的一种基于双向CNN的跨模态语义聚类方法,其特征在于,步骤2具体方法如下:跨模态检索网络采用双层CNN结构,包含ResNet

50网络和文本CNN网络即TextCNN;网络结构采用双CNN同时进行;通过ResNet

50网络提取图片样本的特征向量;对于文本样本,先利用Word2Vec预训练词向量,再通过TextCNN提取文本的特征向量;采用ResNet

50来进行对图片样本的信息特征向量的提取,然后进行公共表示学习得到每个图片的公共表示;词嵌入是将文本中的词转换成数字向量的方法;TextCNN包括嵌入层、卷积层、池化层和全连接softmax层;对于每个句子,根据词向量得到一个二维句子矩阵,然后选择不同的大小的过滤器进行卷积操作得到多个特征,然后进行最大池化,并且将其拼接起来,最后经过softmax全连接层进行分类;同样,采用多个完全连通的层来学习文本的公共表示;用U=[u1,u2,

,u
n
],V=[v...

【专利技术属性】
技术研发人员:颜成钢王超怡孙垚棋张继勇李宗鹏
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1