【技术实现步骤摘要】
基于语义树增强的复杂文本查询到视频的跨模态检索方法
本专利技术涉及从文本查询到视频的跨模态检索领域,尤其涉及一种基于语义树增强的复杂文本查询到视频的跨模态检索方法。
技术介绍
随着互联网上用户生成视频呈指数级增长,上传日常生活中的视频与搜索感兴趣的视频已成为人们日常生活中不可缺少的活动。从文本查询到视频的跨模态检索方法是获得感兴趣视频的技术之一。早期的从文本查询到视频的跨模态检索方法以基于文本关键字为主,并得到了广泛的研究和发展。但是这类方法只允许用户输入若干关键字作为查询。随着人们对于互联网的视频搜索能力的需求进一步提升,基于关键字的查询很难充分表达用户的搜索意图,从而影响搜索的体验。针对这一问题,支持复杂文本查询的视频检索应运而生。因此,如何理解对于复杂文本查询传递出的更复杂的语义并且理解用户意图,已成为跨模态检索领域的困难挑战之一。现有的对于文本查询到视频的跨模态检索方法通常分为两类,第一类是基于概念的方法,该类方法利用大量的视觉概念来描述视频内容,同时将文本查询转换成一组基本视觉概念。用视觉概念来表示文本查询 ...
【技术保护点】
1.一种基于语义树增强的复杂文本查询到视频的跨模态检索方法,其特征在于,该方法包括以下步骤:/n(1)对复杂文本查询语句进行特征提取,得到复杂文本查询语句的叶子节点特征。/n(2)对步骤(1)中得到的复杂文本查询语句的叶子节点特征进行语义树增强的树形结构的编码。/n(3)将步骤(2)中得到的复杂文本查询语句的语义树结构的编码表示,运用注意力机制挖掘组成树形结构的每个节点成分的重要性,获得可以感知用户意图的复杂文本查询语句的表示;/n(4)对视频帧进行特征提取,得到视频的初始视觉特征表示。/n(5)对步骤(4)中得到的初始视觉特征表示提取沿着序列方向的连续帧的时间依赖性,提取 ...
【技术特征摘要】
1.一种基于语义树增强的复杂文本查询到视频的跨模态检索方法,其特征在于,该方法包括以下步骤:
(1)对复杂文本查询语句进行特征提取,得到复杂文本查询语句的叶子节点特征。
(2)对步骤(1)中得到的复杂文本查询语句的叶子节点特征进行语义树增强的树形结构的编码。
(3)将步骤(2)中得到的复杂文本查询语句的语义树结构的编码表示,运用注意力机制挖掘组成树形结构的每个节点成分的重要性,获得可以感知用户意图的复杂文本查询语句的表示;
(4)对视频帧进行特征提取,得到视频的初始视觉特征表示。
(5)对步骤(4)中得到的初始视觉特征表示提取沿着序列方向的连续帧的时间依赖性,提取帧之间的语义相关性。
(6)对在步骤(5)中得到的视频表示运用注意力机制,区分信息的重要程度,使有用的信息在最终的视频视觉特征表示中占更大的比重。
(7)将步骤(3)和步骤(6)中经过注意力机制处理过的复杂文本查询语句表示和视频视觉特征表示分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,以端到端的方式训练模型。
(8)利用步骤(7)训练得到的模型实现基于语义树的复杂文本查询到视频的跨模态检索。
2.根据权利要求1所述的一种基于语义树增强的复杂文本查询到视频的跨模态检索方法,其特征在于,所述步骤(1)中复杂文本查询语句的叶子节点特征提取方法包括以下子步骤:
(1-1)利用独热编码对复杂文本查询语句中的每个单词进行编码,得到独热编码向量序列;通过对独热编码向量乘以一个单词嵌入矩阵,得到复杂文本查询语句的词向量序列表示;
(1-2)使用RNN中的LSTM对词向量序列表示进行建模,将词向量序列表示转换成叶子节点特征。
3.根据权利要求1所述的一种基于语义树增强的复杂文本查询到视频的跨模态检索方法,其特征在于,所述步骤(2)中对复杂文本查询语句的叶子节点特征进行语义树增强的树形结构的编码,包括以下子步骤:
(2-1)使用树形结构的LSTM方法生成父节点,以自下而上的方式递归地组成一个语义树结构;语义树由两类节点组成:子节点和父节点,子节点表示的是复杂文本查询语句中的单词,父节点表示的是单词成分的组合;将步骤(1)得到的叶子节点特征作为语义树的第一层子节点表示,将所有的子节点中两个相邻的子节点利用树形结构的LSTM方法,组合得到候选父节点;
(2-2)根据记忆增强的节点评分模块从每一层的候选父节点中选择最佳父节点作为下一层节点,未被选择的子节点直接复制到下一层作为下一层节点的表示;递归地重复上述过程,直到只剩下一个节点。
4.根据权利要求3所述的一种基于语义树增强的复杂文本查询到视频的跨模态检索方法,其特征在于,所述步骤(2-1)中,给定两个相邻子节点(hi,ci)和(hi+1,ci+1)作为输入,hi表示第i个节点的隐藏状态,ci表示第i个节点的记忆状态,父节点可被计算为:
hp=o⊙tanh(cp)
cp=fl⊙ci+fr⊙ci+1+τ⊙g
其中hp表示父节点的隐藏状态,其维度设为dt*1;cp表示父节点的记忆状态,其维度设为dt*1;→表示特征之间逐元素相乘;τ,fl,fr,o,g可被表示为:
其中Wp表示可训练的变换矩阵,其维度设为5dt*2dt;bp表示可训练的偏置向量,其维度设为5dt*1;σ表示sigmoid非线性激活函数,tanh表示tanh非线性变换函数;
假设第t层语义树由Nt个节点组成,第t层节点可以表示为:
如果选择将t层节点与进行合并,父节点可以表示为:
其中表示第t层的第i个节点,表示第t层的第i+1个节点,表示第t+1层的第i个节点,treeLSTM表示树形结构的LSTM方法;
所述步骤(2-2)中,根据记忆增强的节点评分模块fscore(.;Θscore)确定最佳父节点,第i个候选父节点被选择的可能性表示为:
其中Θscore表示节点评分模块的可训练参数;为上下文语义向量,通过查询存储器M判断每个节点隐藏状态的重要性程度,根据M中每个节点隐藏状态的重要性程度聚合后得到上下文语义向量存储器M表示为:
其中表示第1层的第N个节点的隐藏状态;存储器M中节点隐藏状态的重要性程度表示为:
其中表示语义树第t层第i个节点针对存储器M中第j个节点隐藏状态的重要性程度;Wm表示可训练的变换矩阵,其维度设为dt*dt;bm表示可训...
【专利技术属性】
技术研发人员:董建锋,彭敬伟,杨勋,郑琪,王勋,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。