System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能及多模态哈希检索,具体地说是一种基于深度语义代理的多模态哈希检索方法、系统、设备及介质。
技术介绍
1、在信息时代的蓬勃发展和网络的迅猛进步下,多模态数据以图像、文本和音频等多种形式呈现,呈现出爆炸式增长的趋势。然而,传统的单模态数据检索方法,如图像检索和文本检索,已无法满足日益多样化的多模态数据的需求。多模态数据具有低级表现异质性和高级语义同质性的特点,即同一事物可以通过不同的表达方式和表现形式来呈现,这种多样性的表现形式可以从不同方面表征同一数据实例、补偿每种模态的信息缺失,从而相互增强丰富了人们理解模态的语义信息。因此,多模态检索需要能够跨越不同模态数据之间的语义鸿沟,实现准确且高效的检索。
2、多模态哈希检索不同于跨模态哈希检索。跨模态哈希检索旨在通过一系列的哈希函数从一种模态来查询另一种模态语义相关的模态实例,相比之下多模态哈希利用多模态数据之间的互补和一致的相关性来学习哈希码以用来进行检索。多模态哈希将多模态异构数据压缩成为紧凑的二进制哈希码,其中原始的多模态实例语义关系在重构的汉明空间中得到很好的保留,通过获得的多模态哈希表示,在大规模多媒体检索过程中可以加快模态间相似性计算速度,同时可以大大降低存储成本。
3、近年来,许多深度学习的网络模型已被应用于多模态哈希检索系统中,其中,基于标签矩阵监督和成对语义监督等方法表现出良好的性能。基于标签矩阵监督的多模态哈希检索方法通过语义标签来构造一个标签矩阵的监督,通过多模态特征集成和标签矩阵的监督来学习二进制哈希码;基于成对语义
技术实现思路
1、本专利技术的技术任务是提供一种基于深度语义代理的多模态哈希检索方法、系统、设备及介质,来解决多模态哈希检索过程中多模态融合不充分的问题以及忽略的数据本身与监督语义之间的关联弱的问题。
2、本专利技术的技术任务是按以下方式实现的,一种基于深度语义代理的多模态哈希检索方法,该方法具体如下:
3、构建多模态数据集:获取图像模态和文本模态数据集,并进行预处理,再使用clip预训练模型对图像模态和文本模态数据集进行深度特征提取,并按照比例构建训练集、测试集和检索集,再组合生成最终的数据集;
4、构建基于深度语义代理的多模态哈希检索模型:利用神经网络和深度学习方法构建基于深度语义代理的多模态哈希检索模型;
5、训练模型:利用最终的数据集对基于深度语义代理的多模态哈希检索模型进行训练。
6、作为优选,构建多模态数据集具体如下:
7、获取公共数据集:从公共网络资源中获取并下载包含图像模态和文本模态的公共数据集作为原始数据集;其中,公共数据集包括mir-flickr数据集和nus-wide数据集;
8、对下载的原始数据集进行数据划分;具体如下:
9、在mir-flickr数据集和nus-wide数据集上随机选择任意一部分图像-文本对作为测试集,用于评估测试性能;
10、排除mir-flickr数据集和nus-wide数据集中测试集图像-文本对数据,将剩余的图像-文本对随机抽取一部分最为检索数据集,用于检索操作;
11、在检索数据集中,将数据集剩余部分图像-文本对作为训练集,用于目标函数训练,实现更好的系统检索性能;
12、提取图像模态深度特征,使用预训练模型clip作为图像编码器,实现对图像模态进行深度特征提取;具体如下:
13、预处理图像模态数据:统一将输入图像剪裁重塑调整为h×h像素大小;将重塑图像转化为扁平化的二维平面图像块,并对图像进行归一化处理消除图像之间的差异;
14、提取深度图像特征:通过下载clip预训练模型将vit-b/32模型加载到gpu上,使用vit-b/32模型提取图像深度特征,从而捕获图像的高级语义信息;
15、提取文本模态深度特征,使用clip预训练模型作为文本编码器,实现对文本模态进行深度特征提取;具体如下:
16、预处理文本模态数据:将输入文本进行文本清洗、文本分词和文本向量化的预处理操作,并将文本信息映射到文本向量;
17、提取深度文本特征:通过下载clip预训练模型将vit-l/14模型加载到gpu上,使用vit-l/14模型提取深度文本特征,从而捕获文本的高级语义信息。
18、更优地,构建基于深度语义代理的多模态哈希检索模型具体如下:
19、多模态融合:将深度图像特征和深度文本特征经过细粒度特征提取器提取后得到深度图像特征特征权重和深度文本特征特征权重,将深度图像特征特征权重和深度文本特征特征权重经过特征细化部分处理得到细化图像特征和细化文本特征,经过多模态特征融合生成特征融合矩阵,并通过哈希映射部分输出哈希码;
20、语义代理哈希:将成对的深度图像特征、深度文本特征和深度标签特征通过多层感知机映射为图像编码、文本编码和标签编码,再通过松散耦合融合和代理哈希映射生成两个代理哈希码;
21、哈希检索查询:哈希码通过计算汉明距离进行相似性检索,多次迭代计算平均精度用于对检索性能进行评估。
22、更优地,多模态融合具体如下:
23、特征细化:通过细粒度特征提取器处理得到图像特征权重和文本特征权重,分别将深度图像特征与图像特征权重以及深度文本特征与文本特征权重点乘得到图像细化特征以及文本细化特征,公式如下:
24、
25、
26、其中,x和y分别表示深度图像特征和深度文本特征;tx和ty分别表示图像细粒度特征提取器和文本细粒度特征提取器;cx和cy分别表示图像特征权重和文本特征权重;θdx和θdy表示训练参数;和分别表示图像细化特征和文本细化特征;
27、多模态特征融合:将图像细化特征和文本细化特征经过多模态特征融合生成特征融合矩阵,公式如下:
28、
29、其中,表示特征融合矩阵;k1和k2表示模态融合参数;和分别表示图像细化特征和文本细化特征;
30、哈希映射:将特征融合矩阵经过哈希映射生成哈希码;公式如下:
31、
32、其中,bi表示第i对样本特征的哈希码;表示第i对样本特征的特征融合向量。
33、更优地,语义代理哈希具体如下:
34、特征编码:将成对的深度图像特征、深度文本特征和深度标签特征通过多层感知机映射生成图像编码、文本编码和标签编码,公式如下:
35、
...
【技术保护点】
1.一种基于深度语义代理的多模态哈希检索方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的基于深度语义代理的多模态哈希检索方法,其特征在于,构建多模态数据集具体如下:
3.根据权利要求1或2所述的基于深度语义代理的多模态哈希检索方法,其特征在于,构建基于深度语义代理的多模态哈希检索模型具体如下:
4.根据权利要求3所述的基于深度语义代理的多模态哈希检索方法,其特征在于,多模态融合具体如下:
5.根据权利要求3所述的基于深度语义代理的多模态哈希检索方法,其特征在于,语义代理哈希具体如下:
6.根据权利要求1所述的基于深度语义代理的多模态哈希检索方法,其特征在于,训练模型具体如下:
7.一种基于深度语义代理的多模态哈希检索系统,其特征在于,该系统用于实现如权利要求1-6任一项所述的基于深度语义代理的多模态哈希检索方法;该系统包括:
8.根据权利要求7所述的基于深度语义代理的多模态哈希检索系统,其特征在于,所述模型构建单元包括:
9.一种电子设备,其特征在于,包括:存储器和至少一个
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至6中任一项所述的基于深度语义代理的多模态哈希检索方法。
...【技术特征摘要】
1.一种基于深度语义代理的多模态哈希检索方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的基于深度语义代理的多模态哈希检索方法,其特征在于,构建多模态数据集具体如下:
3.根据权利要求1或2所述的基于深度语义代理的多模态哈希检索方法,其特征在于,构建基于深度语义代理的多模态哈希检索模型具体如下:
4.根据权利要求3所述的基于深度语义代理的多模态哈希检索方法,其特征在于,多模态融合具体如下:
5.根据权利要求3所述的基于深度语义代理的多模态哈希检索方法,其特征在于,语义代理哈希具体如下:
6.根据权利要求1所述的基于深度语义代理...
【专利技术属性】
技术研发人员:郑超群,左瑞帆,管红娇,鹿文鹏,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。