当前位置: 首页 > 专利查询>浙江大学专利>正文

一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法技术

技术编号:23610204 阅读:99 留言:0更新日期:2020-03-28 09:31
本发明专利技术公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法。1)针对一组视频,切割构建视频片段。利用全卷积神经网络,提取视频每个镜头的视觉特征。2)利用局部自注意力机制,学习视频片段中所有镜头之间的语义关系,并生成视频镜头的视觉特征。3)利用查询相关的全局注意力机制,学习视频不同片段之间的语义关系,并生成面向查询的视频镜头的视觉特征。4)计算视频镜头和用户查询之间的相似度得分,用来生成查询相关的视频摘要。相比于一般视频摘要解决方案,本发明专利技术利用卷积多层注意力机制,能够更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。本发明专利技术在视频摘要中所取得的效果相比于传统方法更好。

A method of generating query oriented video abstracts using convolutional multilayer attention network mechanism

【技术实现步骤摘要】
一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
本专利技术涉及视频摘要生成,尤其涉及一种利用卷积多层注意力网络来生成与查询相关的视频摘要的方法。
技术介绍
自动化的视频摘要技术广泛应用于诸多领域,例如运动识别,监视视频分析,基于个人生活日志视频的可视日记创建,以及视频站点的视频预览。现有的视频摘要方法侧重于寻找最多样化和最具代表性的视觉内容,缺少对用户偏好的考虑。它可以分为两个领域:(1)通用视频摘要(2)面向查询的视频摘要。通用视频摘要通过选择长视频的亮点,并删除视频冗余内容来生成原始视频的紧凑版本;面向查询的视频摘要不仅删除视频的多余部分,找到视频中的关键帧或镜头,而且挑选出与用户查询相关的视频片段。面向查询的视频摘要相较于通用视频摘要的优越性主要体现在以下三点:首先,视频摘要需要考虑用户的主观性,因为不同的用户查询可能会收到不同的视频摘要;其次,通用视频摘要方法的性能评估通常是为了测量时间重叠,从而难以捕获摘要和原始视频之间的语义相似性;第三,文本查询可以为任务带来更多的语义信息。近期面向查询的视频摘要本文档来自技高网...

【技术保护点】
1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于包括如下步骤:/n1)构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;/n1.1)对于输入的视频,构建视频片段;/n1.2)对于步骤1.1)形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;/n1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力...

【技术特征摘要】
1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于包括如下步骤:
1)构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1)对于输入的视频,构建视频片段;
1.2)对于步骤1.1)形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
1.5)根据步骤1.2)得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2)根据步骤1)得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1)构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3)将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。


2.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤1.2)具体为:
将每一个视频片段输入到预训练的残差神经网络中,得到每个视频片段的视觉特征其vki表示第k个视频片段中第i个镜头的视觉特征,sk代表第k个视频片段内的镜头数;
将中的每一个元素使用一维全卷积神经网络进行编码,并按照如下公式进行空洞卷积处理,得到第k个视频片段中所有镜头的输出:



其中,2k+1为过滤器的尺寸,f为过滤器,d为空洞因子;
通过时间轴上的池化层处理,得到第k个视频片段的镜头级别的视觉特征表达t为输出特征序列的长度。


3.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,步骤1.3)所述的局部自注意力机制的计算步骤如下:
1.3.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达,按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量



其中,为第k个视频片段内第i个元素的特征向量,为第k个视频片段内第j个元素的特征向量,P与W1、W2为可训练的dc阶的实参数矩阵,dc为特征向量的维数,b...

【专利技术属性】
技术研发人员:赵洲许亦陈肖舒文
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1