【技术实现步骤摘要】
一种基于距离聚类的支持多模态的图文检索方法及装置
[0001]本专利技术涉及计算机人工智能领域,即计算机视觉、自然语言处理和信息检索结合的领域,尤其涉及一种基于距离聚类的支持多模态的图文检索方法及装置。
技术介绍
[0002]在计算机人工智能领域,深度神经网络经过良好的训练能够支持文本检索和图像检索,并展现出极好的性能。然而,大部分深度神经网络只能针对单一数据模态进行良好的训练,即大部分神经网络模型是为一个封闭的模态所设计的。然而在现实生活中,人们对图文搜索领域有很大的需求,但是由于在人工标注数据方面,图像并不能有效地涵盖不可计数的所有描述文本,文本也并不能有效地涵盖不可计数的图像,且图像和文本之间的表示空间是不一致的,因此在人工数据标注和神经网络学习方面有很大难度。
[0003]理论上,一个理想的跨模态图文检索模型应该具有以下三个标准:
[0004](1)当新的图像文本数据在不同时间出现,模型均可训练。
[0005](2)任何时间在已经学习过的图像文本对中有很好的检索效果。
[0006](3 ...
【技术保护点】
【技术特征摘要】
1.一种基于距离聚类的支持多模态的图文检索方法,其特征在于,包括以下步骤:步骤1:获取原图文,对原图文中的图像和图像的描述文本进行预处理并做数据增强,得到增强后的图文对数据;步骤2:提取步骤1得到的增强后的图文数据的局部特征和全局特征,得到图像的编码向量和文本的编码向量;步骤3:使用计算向量距离的方式构建正负样本,得到N个正样本和N个负样本;步骤4:搭建对比学习模型并使用构建的正负样本学习模型,判断文本向量和图像向量是否是对应的;步骤5:将学习到的文本向量和图像向量分别进行多级聚类,同时保留文本和图像之间的索引,得到图文向量库;步骤6:图文检索,将输入的图文,通过步骤2编码成向量,然后通过向量在步骤5得到的图文向量库中检索,得到最终结果。2.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,步骤1具体包括以下步骤:步骤1.1:对图像做灰度化处理、几何变换预处理;步骤1.2:对文本做数据清洗,采用正则表达式的方式去除图像描述数据中的乱码;步骤1.3:对图像做数据增强,采用旋转、平移、裁剪、噪声数据增强手段,扩充数据集,增加模型鲁棒性;步骤1.4:对文本做数据增强,在不改变原意的情况下采用增词、删词、替换近义词等数据增强手段,扩充数据集,增加模型鲁棒性。3.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,上述步骤2具体包括以下步骤:步骤2.1:采用GoogleNet中的Inception结构,即使用不同大小的卷积核分别对图像做特征提取,然后将Inception提取得到的每张特征图拉平,将这些特征图拼接在一起,作为这张图像的编码向量,为了图文向量能够互相检索,需要将长度不同的向量压缩到一个指定长度L,使用全连接将图像的向量长度变换为L;步骤2.2:使用TextRank算法,提取出文本中的TopK个关键字,K是一个超参数,根据文本长度确定,将文本和关键字拼接在一起作为新的文本,将新的文本使用BERT进行编码,使用BI
‑
LSTM提取深层次特征,在时间序列维度取平均值作为该文本的向量,然后使用全连接将向量长度变换为L。4.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,步骤3具体包括以下步骤:步骤3.1:正样本为原图文对及数据增强后得到的图文对的两两组合,共N对正样本;构建负样本的过程中,对于文本编码向量分别使用BM25算法和向量距离计算两种方式,对于图像编码向量使用向量距离计算的方式;文本负样本构建,首先需要通过计算筛选出Top M个描述文本,其中M是自定义值的参数,且M>=2*N,向量距离计算使用欧式距离衡量相似程度,x,y代表需要计算相似程度的两个文本向量,其中:x=(x1,...,x
i
,
.
..,x
n
)
T
,
y
=(y1,...,y
i
...,y
n
)
T
其中x
i
代表x向量在第i个维度上的数值,y
i
代表y向量在第i个维度上的数值,T代表列向量公式1:其中x
i
代表x向量在第i个维度上的数值,
yi
代表y向量在第i个维度上的数值,T代表列向量;公式1为n阶欧式距离公式如公式1所示,欧式距离为x向量和y向量在所有维度上根号下差值的平方和的累加,欧式距离越小说明越相似,欧式距离越大说明不相似。BM25算法通过计算词的重要性,可以用来计算文本之间的相关性,BM25算法计算结果是一个0
‑
1之间的数,越接近1说明两个文本越相似,越接近0说明越不相似;根据BM25算法和向量距离计算方法分别筛选出Top M/2个文本,其中包含一部分正样本,将其中的正样本剔除后得到负样本序列,选择负样本序列中前Top N/2个文本,构成N/2对负样本;图像负样本构建,首先使用欧式距离的方法召回Top M个图像向量,其中包含一部分正样本,将其中的正样本剔除后得到负样本序列,选择负样本序列中前Top N/2个图像向量,构成N/2对负样本;通过上述方式可以得到N个正样本和N个负样本,保证正负样本相对平衡,模型能够学习得更加充分。5.根据权利要求1所述的一种基于距离聚类的支持多模态的图文检索方法,其特征在于,上述步骤4具体包括以下步骤:步骤4.1:构建对比学习模型,让模型学习两个图文对是否是对应的,具体方法是将...
【专利技术属性】
技术研发人员:苏海波,苏萌,刘译璟,赵群,杜晓梦,
申请(专利权)人:北京百分点科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。