图文跨模态检索方法技术

技术编号:39501373 阅读:4 留言:0更新日期:2023-11-24 11:31
本发明专利技术提供一种图文跨模态检索方法

【技术实现步骤摘要】
图文跨模态检索方法、装置、电子设备及存储介质


[0001]本专利技术涉及跨模态检索
,尤其涉及一种图文跨模态检索方法

装置

电子设备及存储介质


技术介绍

[0002]移动互联网的快速发展,使文字

图片

音频

视频等多媒体数据呈现爆炸式增长

常规检索已不能满足人们日益变化的搜索需求,跨模态检索应用而生

[0003]目前跨模态检索的方法主要有两种形式:
(1)
基于深度学习的跨模态检索

通过深度学习算法,不同数据模态间的数据可以被映射到一个共同的低维向量空间中,从而将数据的语义信息编码成向量表示

在该向量空间中,相似的数据点距离较近,不相似的数据点距离较远,这样可实现不同模态数据间的语义相似度计算和匹配

深度学习技术可以通过自动学习特征表示,从而实现多模态数据融合

在跨模态检索中,深度学习技术可以通过构建共同表示层来实现对多模态数据的融合

同时,深度学习技术还可以通过对共同表示层进行训练,来实现对跨模态检索性能的优化
。(2)
基于自然编码器的生成模型

生成模型其思想是获取一类数据的内部概率分布从而生成相似数据,是一种概率模型

将自然编码器的思想扩展,通过编码器将特征映射到同一空间,减小不同模态间相关性学习错误,再通过解码器将特征映射回原空间,减小每种模态内的特征学习错误

相关技术中大多只关注于对粗略数据进行建模,导致无法准确地优化不同模态数据的特征


技术实现思路

[0004]本专利技术实施例提供了一种图文跨模态检索方法

装置

电子设备及存储介质,以解决图文检索时无法检测到图片中实体相对位置的问题

[0005]第一方面,本专利技术实施例提供了一种图文跨模态检索方法,包括:
[0006]在预设图片库和预设文本库中进行样本筛选,得到图片样本和文本样本;所述图片样本与所述文本样本中包括至少同一种实体目标;
[0007]对所述文本样本进行实体抽取,得到所述文本样本的实体目标;对所述图片样本进行分割,得到所述图片样本的
M
×
N
个区块;分别计算所述实体目标在每个区块内的权重,根据所述权重确定所述图片样本的高频实体目标;
[0008]提取各区块的文本提示信息,并将所述文本提示信息添加到所述实体目标对应的文本后;其中,所述文本提示信息包括所属区块的标识以及区块生成的对象标记;分别提取各区块和所述添加信息后的实体目标对应的文本的特征向量,并基于所述特征向量和所述高频实体目标进行合并

[0009]在一种可能的实现方式中,所述实体目标为至少有一种,每种实体目标中包括至少一个实体目标;所述分别计算所述实体目标在每个区块内的权重,根据所述权重得到所述图片样本的高频实体目标,包括:
[0010]对于每个实体目标,执行以下步骤:
[0011]检测所述图片样本中包含该实体目标的第一矩形区域面积;
[0012]对于每个区块,获取该区块中包含该实体目标的第二矩形区域面积,将第二矩形区域面积除以所述第一矩形区域面积,得到该实体目标在该区块内的权重;
[0013]对于每种实体目标,将属于该种实体目标的每个实体目标在各区块内的权重进行累加,得到该种实体目标在所述图片样本中的权重;
[0014]将每种实体目标在所述图片样本中的权重按照排序算法进行排序,将对应权重最大的一种实体目标作为所述图片样本的高频实体目标

[0015]在一种可能的实现方式中,所述分别提取各区块和所述添加信息后的实体目标对应的文本的特征向量,包括:
[0016]采用图片编码器分别对各区块进行特征提取,得到各区块的第一特征向量;
[0017]采用文本编码器对所述添加信息后的实体目标对应的文本进行特征提取,得到第二特征向量

[0018]在一种可能的实现方式中,所述基于所述特征向量和所述高频实体目标进行合并,包括:
[0019]将所述第一特征向量和所述第二特征向量进行编码处理,并将编码处理后的第一特征向量和第二特征向量映射到预设的共享子空间;
[0020]根据构建的张量将所述共享子空间中编码处理后的所述第一特征向量和所述第二特征向量进行乘积,得到跨模态融合后的各区块和所述实体目标对应的文本;
[0021]基于所述跨模态融合后的各区块和所述实体目标对应的文本以及所述高频实体目标进行合并

[0022]在一种可能的实现方式中,所述对所述文本样本进行实体抽取,得到所述文本样本的实体目标,包括:
[0023]提取所述预设文本库中文本所包含的实体,得到所述预设文本库的词表;
[0024]筛选所述词表中的实体,得到多个高频实体;
[0025]将所述多个高频实体与所述文本样本中抽取得到的实体进行比对,根据比对结果得到所述文本样本的实体目标

[0026]在一种可能的实现方式中,在对所述图片样本进行分割,得到所述图片样本的
M
×
N
个区块之后,还包括:
[0027]将各区块输入到预训练的神经网络中,获取各个区块对应的特征向量图谱;
[0028]设定所述特征向量图谱中的每一点的感兴趣区域,根据所述设定后的感兴趣区域得到至少一个候选感兴趣区域;
[0029]根据预设的区域建议网络将所述至少一个候选感兴趣区域进行二值分类和边框回归,筛选所述至少一个候选感兴趣区域;
[0030]根据筛选完成的至少一个候选感兴趣区域,将各区块和所述特征图谱的像素对应以及将所述特征图谱和对应的固定特征对应;
[0031]根据对应的各区块和所述特征图谱的像素以及所述特征图谱和对应的固定特征,将感兴趣区域进行分类

边框回归以及掩膜生成,得到各区块的实体目标

[0032]在一种可能的实现方式中,所述预设文本库的构建过程包括:
[0033]获取文本库中的文本,根据正则表达式去除所述文本的噪音;
[0034]根据分词工具将去除噪音后的文本分割成单独的文本单元;
[0035]利用预设的停用词列表对所述文本单元进行停用词识别,并将所述文本单元中识别的停用词删除;
[0036]根据预设文本规则处理删除停用词后的文本单元,得到标准化的文本单元,并根据所述标准化的文本单元得到预设文本库

[0037]所述预设图片库的构建过程包括:对预设图片库中的图片进行预处理操作,其中,所述预处理操作至少包括裁剪

缩放

去噪和增强...

【技术保护点】

【技术特征摘要】
1.
一种图文跨模态检索方法,其特征在于,包括:在预设图片库和预设文本库中进行样本筛选,得到图片样本和文本样本;所述图片样本与所述文本样本中包括至少同一种实体目标;对所述文本样本进行实体抽取,得到所述文本样本的实体目标;对所述图片样本进行分割,得到所述图片样本的
M
×
N
个区块;分别计算所述实体目标在每个区块内的权重,根据所述权重确定所述图片样本的高频实体目标;提取各区块的文本提示信息,并将所述文本提示信息添加到所述实体目标对应的文本后;其中,所述文本提示信息包括所属区块的标识以及区块生成的对象标记;分别提取各区块和所述添加信息后的实体目标对应的文本的特征向量,并基于所述特征向量和所述高频实体目标进行合并
。2.
根据权利要求1所述的方法,其特征在于,所述实体目标为至少有一种,每种实体目标中包括至少一个实体目标;所述分别计算所述实体目标在每个区块内的权重,根据所述权重得到所述图片样本的高频实体目标,包括:对于每个实体目标,执行以下步骤:检测所述图片样本中包含该实体目标的第一矩形区域面积;对于每个区块,获取该区块中包含该实体目标的第二矩形区域面积,将第二矩形区域面积除以所述第一矩形区域面积,得到该实体目标在该区块内的权重;对于每种实体目标,将属于该种实体目标的每个实体目标在各区块内的权重进行累加,得到该种实体目标在所述图片样本中的权重;将每种实体目标在所述图片样本中的权重按照排序算法进行排序,将对应权重最大的一种实体目标作为所述图片样本的高频实体目标
。3.
根据权利要求1所述的方法,其特征在于,所述分别提取各区块和所述添加信息后的实体目标对应的文本的特征向量,包括:采用图片编码器分别对各区块进行特征提取,得到各区块的第一特征向量;采用文本编码器对所述添加信息后的实体目标对应的文本进行特征提取,得到第二特征向量
。4.
根据权利要求3所述的方法,其特征在于,所述基于所述特征向量和所述高频实体目标进行合并,包括:将所述第一特征向量和所述第二特征向量进行编码处理,并将编码处理后的第一特征向量和第二特征向量映射到预设的共享子空间;根据构建的张量将所述共享子空间中编码处理后的所述第一特征向量和所述第二特征向量进行乘积,得到跨模态融合后的各区块和所述实体目标对应的文本;基于所述跨模态融合后的各区块和所述实体目标对应的文本以及所述高频实体目标进行合并
。5.
根据权利要求1所述的方法,其特征在于,所述对所述文本样本进行实体抽取,得到所述文本样本的实体目标,包括:提取所述预设文本库中文本所包含的实体,得到所述预设文本库的词表;筛选所述词表中的实体,得到多个高频实体;将所述多个高频实体与所述文本样本中抽取得到的实体进行比对,根据比对结果得到
所述文本样本的实体目标
。6.
根据权利...

【专利技术属性】
技术研发人员:辛锐欧中洪陈曦路欣刘明硕王少影姜丹张博尹晓宇章涵宇田子敬
申请(专利权)人:华瑞新智科技北京有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1