【技术实现步骤摘要】
一种用于多段视频跨模态检索的方法
本专利技术属于计算机视频分析
,具体涉及一种用于多段视频跨模态检索的方法。
技术介绍
随着深度学习技术的快速发展,多模态数据的建模与交互,例如将视觉内容与自然语言处理相结合的任务,得到了广泛的关注和开发。现有工作大多数关注的是为单个图像或视频自动生成自然语句,本专利技术提出的是一个相反的任务,在这个任务中我们尝试查找多个视频片段并将其组合成一个符合句子描述的连续视频序列。在实际应用中,用户经常会拍摄视频片段以记录难忘的时刻,并在一段时间后通过写一段话就可以自动地获得这段文字对应的视频序列。因此,从一堆视频片段中检索那些句子相关片段并将它们排列成与用户描述最佳匹配的特定顺序是有意义的。本专利技术对多段视频的跨模态检索方法,是指预选取与若干个句子语义相关的所有可能视频片段,并使用这些检索到的片段来组成整个视频,即与句子匹配的视频片段序列,理想的顺序应该与段落中的句子顺序相同。本专利技术主要针对的是根据若干个句子的描述对同样数量且语义上前后相关的视频进行自动检索的任务。这个任务主要存在以下挑战:首先,由于单个句子包含的语义信息是有 ...
【技术保护点】
1.一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法,其特征在于,具体的步骤如下:(1)用预训练的图像特征提取网络Inception‑ResNet和物体特征提取网络Faster‑RCNN分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征;(2)用双向循环神经网络Bi‑LSTM提取句子中词汇向量融合了句子上下文信息的词汇特征,同时拼接句首和句尾的特征向量作为句子特征;(3)对每一帧中的物体特征,采用双边自注意力特征融合网络中的视觉自注意力模块,获得每一帧的物体特征;(4)对每一句中的词汇特征,采用双边自注意力特征融合网络中的文本自注意力模块,获得每 ...
【技术特征摘要】
1.一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法,其特征在于,具体的步骤如下:(1)用预训练的图像特征提取网络Inception-ResNet和物体特征提取网络Faster-RCNN分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征;(2)用双向循环神经网络Bi-LSTM提取句子中词汇向量融合了句子上下文信息的词汇特征,同时拼接句首和句尾的特征向量作为句子特征;(3)对每一帧中的物体特征,采用双边自注意力特征融合网络中的视觉自注意力模块,获得每一帧的物体特征;(4)对每一句中的词汇特征,采用双边自注意力特征融合网络中的文本自注意力模块,获得每一句的词语特征;(5)计算物体特征和词汇特征的特征距离,作为辅助的代价函数,学习双边自注意力特征融合网络,使得配对的物体和词汇的特征距离接近;(6)将物体特征与视频帧的图像特征拼接在一起,作为帧特征,用视频特征提取网络NetVLAD聚合所有帧特征形成视频特征;(7)计算视频特征和句子特征之间的特征距离,作为主要的代价函数,学习视频特征提取网络NetVLAD和双向循环神经网络Bi-LSTM,使得配对的视频和句子的特征距离接近;(8)计算所有候选视频中任意两个视频之间的特征距离,学习另一个视频特征提取网络NetVLAD,使得来自同一个视频序列集合的视频之间的特征距离接近;(9)利用子模态函数,根据段落中句子与所有候选视频的相似度以及候选视频之间的相似度,择出与段落中句子同等数量的最相似的视频;(10)将所有候选视频的特征与查询段落的特征输入排序网络,实现多个视频片段与多个句子之...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。