当前位置: 首页 > 专利查询>华瑞新智科技北京有限公司国家电网有限公司专利>正文

图文跨模态检索方法技术

技术编号：39501373 阅读：4 留言：0更新日期：2023-11-24 11:31

本发明专利技术提供一种图文跨模态检索方法

全部详细技术资料下载

【技术实现步骤摘要】
图文跨模态检索方法、装置、电子设备及存储介质

[0001]本专利技术涉及跨模态检索
，尤其涉及一种图文跨模态检索方法
、
装置
、
电子设备及存储介质
。

技术介绍

[0002]移动互联网的快速发展，使文字
、
图片
、
音频
、
视频等多媒体数据呈现爆炸式增长
。
常规检索已不能满足人们日益变化的搜索需求，跨模态检索应用而生
。
[0003]目前跨模态检索的方法主要有两种形式：
(1)
基于深度学习的跨模态检索
。
通过深度学习算法，不同数据模态间的数据可以被映射到一个共同的低维向量空间中，从而将数据的语义信息编码成向量表示
。
在该向量空间中，相似的数据点距离较近，不相似的数据点距离较远，这样可实现不同模态数据间的语义相似度计算和匹配
。
深度学习技术可以通过自动学习特征表示，从而实现多模态数据融合
。
在跨模态检索中，深度学习技术可以通过构建共同表示层来实现对多模态数据的融合
。
同时，深度学习技术还可以通过对共同表示层进行训练，来实现对跨模态检索性能的优化
。(2)
基于自然编码器的生成模型
。
生成模型其思想是获取一类数据的内部概率分布从而生成相似数据，是一种概率模型
。
将自然编码器的思想扩展，通过编码器将特征映射到同一空间，减小不同模态间

【技术保护点】

【技术特征摘要】
1.
一种图文跨模态检索方法，其特征在于，包括：在预设图片库和预设文本库中进行样本筛选，得到图片样本和文本样本；所述图片样本与所述文本样本中包括至少同一种实体目标；对所述文本样本进行实体抽取，得到所述文本样本的实体目标；对所述图片样本进行分割，得到所述图片样本的
M
×
N
个区块；分别计算所述实体目标在每个区块内的权重，根据所述权重确定所述图片样本的高频实体目标；提取各区块的文本提示信息，并将所述文本提示信息添加到所述实体目标对应的文本后；其中，所述文本提示信息包括所属区块的标识以及区块生成的对象标记；分别提取各区块和所述添加信息后的实体目标对应的文本的特征向量，并基于所述特征向量和所述高频实体目标进行合并
。2.
根据权利要求1所述的方法，其特征在于，所述实体目标为至少有一种，每种实体目标中包括至少一个实体目标；所述分别计算所述实体目标在每个区块内的权重，根据所述权重得到所述图片样本的高频实体目标，包括：对于每个实体目标，执行以下步骤：检测所述图片样本中包含该实体目标的第一矩形区域面积；对于每个区块，获取该区块中包含该实体目标的第二矩形区域面积，将第二矩形区域面积除以所述第一矩形区域面积，得到该实体目标在该区块内的权重；对于每种实体目标，将属于该种实体目标的每个实体目标在各区块内的权重进行累加，得到该种实体目标在所述图片样本中的权重；将每种实体目标在所述图片样本中的权重按照排序算法进行排序，将对应权重最大的一种实体目标作为所述图片样本的高频实体目标
。3.
根据权利要求1所述的方法，其特征在于，所述分别提取各区块和所述添加信息后的实体目标对应的文本的特征向量，包括：采用图片编码器分别对各区块进行特征提取，得到各区块的第一特征向量；采用文本编码器对所述添加信息后的实体目标对应的文本进行特征提取，得到第二特征向量
。4.
根据权利要求3所述的方法，其特征在于，所述基于所述特征向量和所述高频实体目标进行合并，包括：将所述第一特征向量和所述第二特征向量进行编码处理，并将编码处理后的第一特征向量和第二特征向量映射到预设的共享子空间；根据构建的张量将所述共享子空间中编码处理后的所述第一特征向量和所述第二特征向量进行乘积，得到跨模态融合后的各区块和所述实体目标对应的文本；基于所述跨模态融合后的各区块和所述实体目标对应的文本以及所述高频实体目标进行合并
。5.
根据权利要求1所述的方法，其特征在于，所述对所述文本样本进行实体抽取，得到所述文本样本的实体目标，包括：提取所述预设文本库中文本所包含的实体，得到所述预设文本库的词表；筛选所述词表中的实体，得到多个高频实体；将所述多个高频实体与所述文本样本中抽取得到的实体进行比对，根据比对结果得到
所述文本样本的实体目标
。6.
根据权利...

【专利技术属性】
技术研发人员：辛锐，欧中洪，陈曦，路欣，刘明硕，王少影，姜丹，张博，尹晓宇，章涵宇，田子敬，
申请(专利权)人：华瑞新智科技北京有限公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人