一种基于距离聚类的支持多模态的图文检索方法及装置制造方法及图纸

技术编号:37447266 阅读:21 留言:0更新日期:2023-05-06 09:19
本发明专利技术涉及计算机人工智能领域,即计算机视觉、自然语言处理和信息检索结合的领域,尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。目的在于解决现有算法需要大量的标注数据和人工操作,而且在图文搜索阶段,遍历所有图文对计算效率会很低的技术问题。主要方案包括获取原图文进行增强后,对增强后的图文数据的局部特征和全局特征,得到图像的编码向量和文本的编码向量;使用计算向量距离的方式构建正负样本;判断文本向量和图像向量是否是对应的;将学习到的文本向量和图像向量分别进行多级聚类,同时保留文本和图像之间的索引,得到图文向量库;将输入的图文,通过编码成向量,然后在图文向量库中检索,得到最终结果。终结果。

【技术实现步骤摘要】
一种基于距离聚类的支持多模态的图文检索方法及装置


[0001]本专利技术涉及计算机人工智能领域,即计算机视觉、自然语言处理和信息检索结合的领域,尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。

技术介绍

[0002]在计算机人工智能领域,深度神经网络经过良好的训练能够支持文本检索和图像检索,并展现出极好的性能。然而,大部分深度神经网络只能针对单一数据模态进行良好的训练,即大部分神经网络模型是为一个封闭的模态所设计的。然而在现实生活中,人们对图文搜索领域有很大的需求,但是由于在人工标注数据方面,图像并不能有效地涵盖不可计数的所有描述文本,文本也并不能有效地涵盖不可计数的图像,且图像和文本之间的表示空间是不一致的,因此在人工数据标注和神经网络学习方面有很大难度。
[0003]理论上,一个理想的跨模态图文检索模型应该具有以下三个标准:
[0004](1)当新的图像文本数据在不同时间出现,模型均可训练。
[0005](2)任何时间在已经学习过的图像文本对中有很好的检索效果。
[0006](3)计算能力与内存应该本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于距离聚类的支持多模态的图文检索方法,其特征在于,包括以下步骤:步骤1:获取原图文,对原图文中的图像和图像的描述文本进行预处理并做数据增强,得到增强后的图文对数据;步骤2:提取步骤1得到的增强后的图文数据的局部特征和全局特征,得到图像的编码向量和文本的编码向量;步骤3:使用计算向量距离的方式构建正负样本,得到N个正样本和N个负样本;步骤4:搭建对比学习模型并使用构建的正负样本学习模型,判断文本向量和图像向量是否是对应的;步骤5:将学习到的文本向量和图像向量分别进行多级聚类,同时保留文本和图像之间的索引,得到图文向量库;步骤6:图文检索,将输入的图文,通过步骤2编码成向量,然后通过向量在步骤5得到的图文向量库中检索,得到最终结果。2.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,步骤1具体包括以下步骤:步骤1.1:对图像做灰度化处理、几何变换预处理;步骤1.2:对文本做数据清洗,采用正则表达式的方式去除图像描述数据中的乱码;步骤1.3:对图像做数据增强,采用旋转、平移、裁剪、噪声数据增强手段,扩充数据集,增加模型鲁棒性;步骤1.4:对文本做数据增强,在不改变原意的情况下采用增词、删词、替换近义词等数据增强手段,扩充数据集,增加模型鲁棒性。3.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,上述步骤2具体包括以下步骤:步骤2.1:采用GoogleNet中的Inception结构,即使用不同大小的卷积核分别对图像做特征提取,然后将Inception提取得到的每张特征图拉平,将这些特征图拼接在一起,作为这张图像的编码向量,为了图文向量能够互相检索,需要将长度不同的向量压缩到一个指定长度L,使用全连接将图像的向量长度变换为L;步骤2.2:使用TextRank算法,提取出文本中的TopK个关键字,K是一个超参数,根据文本长度确定,将文本和关键字拼接在一起作为新的文本,将新的文本使用BERT进行编码,使用BI

LSTM提取深层次特征,在时间序列维度取平均值作为该文本的向量,然后使用全连接将向量长度变换为L。4.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,步骤3具体包括以下步骤:步骤3.1:正样本为原图文对及数据增强后得到的图文对的两两组合,共N对正样本;构建负样本的过程中,对于文本编码向量分别使用BM25算法和向量距离计算两种方式,对于图像编码向量使用向量距离计算的方式;文本负样本构建,首先需要通过计算筛选出Top M个描述文本,其中M是自定义值的参数,且M>=2*N,向量距离计算使用欧式距离衡量相似程度,x,y代表需要计算相似程度的两个文本向量,其中:x=(x1,...,x
i

.
..,x
n
)
T

y
=(y1,...,y
i
...,y
n
)
T
其中x
i
代表x向量在第i个维度上的数值,y
i
代表y向量在第i个维度上的数值,T代表列向量公式1:其中x
i
代表x向量在第i个维度上的数值,
yi
代表y向量在第i个维度上的数值,T代表列向量;公式1为n阶欧式距离公式如公式1所示,欧式距离为x向量和y向量在所有维度上根号下差值的平方和的累加,欧式距离越小说明越相似,欧式距离越大说明不相似。BM25算法通过计算词的重要性,可以用来计算文本之间的相关性,BM25算法计算结果是一个0

1之间的数,越接近1说明两个文本越相似,越接近0说明越不相似;根据BM25算法和向量距离计算方法分别筛选出Top M/2个文本,其中包含一部分正样本,将其中的正样本剔除后得到负样本序列,选择负样本序列中前Top N/2个文本,构成N/2对负样本;图像负样本构建,首先使用欧式距离的方法召回Top M个图像向量,其中包含一部分正样本,将其中的正样本剔除后得到负样本序列,选择负样本序列中前Top N/2个图像向量,构成N/2对负样本;通过上述方式可以得到N个正样本和N个负样本,保证正负样本相对平衡,模型能够学习得更加充分。5.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,上述步骤4具体包括以下步骤:步骤4.1:构建对比学习模型,让模型学习两个图文对是否是对应的,具体方法是将...

【专利技术属性】
技术研发人员:苏海波苏萌刘译璟赵群杜晓梦
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1