一种用于多段视频跨模态检索的方法技术

技术编号：21971490 阅读：42 留言：0更新日期：2019-08-28 01:29

本发明专利技术属于计算机视频分析技术领域，具体为一种用于多段视频跨模态检索的方法。本发明专利技术针对长文本跨模态检索多段视频任务，基于预检索与排序的思路提出了相关视频片段预选取方法和多段无序视频语义排序网络架构，并设计了双边自注意力方法提取视频中与检索文本相关的特征。本方法首先使用带有自注意力机制的跨模态检模型初选出一小部分相关的视频片段，再根据同模态和跨模态相似度进一步精选视频片段，最后用语义排序网络将视频片段序列与文本句子序列对齐。本发明专利技术方法具有鲁棒性高，速度快等优点，设计的多文本多视频片段语义对齐方法，不仅适用于等长序列的对齐问题，也适用于非等长序列的对齐问题。

A Method for Multi-segment Video Transmodal Retrieval

全部详细技术资料下载

【技术实现步骤摘要】
一种用于多段视频跨模态检索的方法
本专利技术属于计算机视频分析
，具体涉及一种用于多段视频跨模态检索的方法。
技术介绍
随着深度学习技术的快速发展，多模态数据的建模与交互，例如将视觉内容与自然语言处理相结合的任务，得到了广泛的关注和开发。现有工作大多数关注的是为单个图像或视频自动生成自然语句，本专利技术提出的是一个相反的任务，在这个任务中我们尝试查找多个视频片段并将其组合成一个符合句子描述的连续视频序列。在实际应用中，用户经常会拍摄视频片段以记录难忘的时刻，并在一段时间后通过写一段话就可以自动地获得这段文字对应的视频序列。因此，从一堆视频片段中检索那些句子相关片段并将它们排列成与用户描述最佳匹配的特定顺序是有意义的。本专利技术对多段视频的跨模态检索方法，是指预选取与若干个句子语义相关的所有可能视频片段，并使用这些检索到的片段来组成整个视频，即与句子匹配的视频片段序列，理想的顺序应该与段落中的句子顺序相同。本专利技术主要针对的是根据若干个句子的描述对同样数量且语义上前后相关的视频进行自动检索的任务。这个任务主要存在以下挑战：首先，由于单个句子包含的语义信息是有...

【技术保护点】
1.一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法，其特征在于，具体的步骤如下：（1）用预训练的图像特征提取网络Inception‑ResNet和物体特征提取网络Faster‑RCNN分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征；（2）用双向循环神经网络Bi‑LSTM提取句子中词汇向量融合了句子上下文信息的词汇特征，同时拼接句首和句尾的特征向量作为句子特征；（3）对每一帧中的物体特征，采用双边自注意力特征融合网络中的视觉自注意力模块，获得每一帧的物体特征；（4）对每一句中的词汇特征，采用双边自注意力特征融合网络中的文本自注意力模块，获得每一句的词语特征；（5...

【技术特征摘要】
1.一种基于深度神经网络与特征语义关联性的对多段视频进行跨模态检索的方法，其特征在于，具体的步骤如下：（1）用预训练的图像特征提取网络Inception-ResNet和物体特征提取网络Faster-RCNN分别对视频数据集中的样本逐帧提取视频帧的图像特征和物体特征；（2）用双向循环神经网络Bi-LSTM提取句子中词汇向量融合了句子上下文信息的词汇特征，同时拼接句首和句尾的特征向量作为句子特征；（3）对每一帧中的物体特征，采用双边自注意力特征融合网络中的视觉自注意力模块，获得每一帧的物体特征；（4）对每一句中的词汇特征，采用双边自注意力特征融合网络中的文本自注意力模块，获得每一句的词语特征；（5）计算物体特征和词汇特征的特征距离，作为辅助的代价函数，学习双边自注意力特征融合网络，使得配对的物体和词汇的特征距离接近；（6）将物体特征与视频帧的图像特征拼接在一起，作为帧特征，用视频特征提取网络NetVLAD聚合所有帧特征形成视频特征；（7）计算视频特征和句子特征之间的特征距离，作为主要的代价函数，学习视频特征提取网络NetVLAD和双向循环神经网络Bi-LSTM，使得配对的视频和句子的特征距离接近；（8）计算所有候选视频中任意两个视频之间的特征距离，学习另一个视频特征提取网络NetVLAD，使得来自同一个视频序列集合的视频之间的特征距离接近；（9）利用子模态函数，根据段落中句子与所有候选视频的相似度以及候选视频之间的相似度，择出与段落中句子同等数量的最相似的视频；（10）将所有候选视频的特征与查询段落的特征输入排序网络，实现多个视频片段与多个句子之...

【专利技术属性】
技术研发人员：姜育刚，王铮，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人