一种图文跨媒体检索方法技术

技术编号：25599172 阅读：17 留言：0更新日期：2020-09-11 23:56

本发明专利技术公开一种图文跨媒体检索方法。本发明专利技术通过提取输入图像的图像特征V，对输入句子进行编码得到词级别表示S

全部详细技术资料下载

【技术实现步骤摘要】
一种图文跨媒体检索方法
本专利技术属于自然语言理解
，具体涉及一种图文跨媒体检索方法。
技术介绍
跨媒体检索是指用户给定一个媒体的查询信息，可以检索出语义相关的其他媒体的信息。目前，跨媒体检索的方法分为两大类：一类是基于共同语义空间学习的方法；另一类是基于跨模态特征融合的方法。基于共同语义空间学习的方法，其本质在于对齐不同模态数据的分布和特征表示。其中，传统经典的相关分析是此类方法的基础。典型相关分析CCA(CanonicalCorrelationAnalysis)是最为经典的方法。正因为在跨媒体检索中，数据常常是成对出现的，CCA将这些成对出现的数据投影到相同的子空间中，使其距离最小化、相似性最大化。CCA是一种无监督类方法，因为其没有用到数据的类别标签。有学者尝试将标签信息加入到CCA中，使用分析方法得到各个模态在公共空间的线性投影，再对不同模态数据做逻辑回归。由于不同媒体数据所含信息量不对等，基于共同语义空间学习的方法可能损失部分信息或者引入噪声。基于跨模态特征融合的方法，其本质在于捕捉跨媒体数据间复杂的关联关系。特征融合分析类方法主要是构造一个多路径的模型，每个不同的路径用于提取各自模态的语义特征，利用深度神经网络对这些特征进行融合分析，挖掘各个模态间的潜在关系得到相似度。可使用多模态长短记忆网络挖掘句子和图像的潜在语义关系，通过调节注意力机制来选择语义更相关的多模态数据作为训练对象，将多个时间步长内的局部相似性与隐层状态融合，以获得最终匹配分数作为所需的全局相似度。有学者提出将多模态双...

【技术保护点】
1.一种图文跨媒体检索方法，其特征在于，包括以下步骤：/n步骤1，按区域提取输入图像的图像特征V＝{v

【技术特征摘要】
1.一种图文跨媒体检索方法，其特征在于，包括以下步骤：
步骤1，按区域提取输入图像的图像特征V＝{v1,v2,…,vN}，vn为第n个区域的图像特征，n＝1,2,…,N，N为图像特征的数量；
步骤2，利用双向GRU对输入句子S进行编码，得到S的词级别表示为第t个词的词向量表示，t＝1,2,…,T；T为词的数量；
步骤3，将Sw输入卷积神经网络CNN得到S的短语级别表示为第t个词的短语向量表示，t＝1,2,…,T，T为词的数量；
步骤4，分别计算Sw、Sp与V的相似度，将得到的两个相似度进行融合得到输入文本与图像的相似度，根据相似度大小进行匹配检索。

2.根据权利要求1所述的图文跨媒体检索方法，其特征在于，所述步骤3具体包括：
通过CNN对Sw进行卷积核大小分别为1、2、3的一维卷积运算，提取文本特征，第t个词的卷积公式如下：

式中，...

【专利技术属性】
技术研发人员：王春辉，胡勇，
申请(专利权)人：拾音智能科技有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人