【技术实现步骤摘要】
基于Transformer和深度强化学习的视频摘要生成网络
[0001]本专利技术涉及一种基于Transformer和深度强化学习的视频摘要生成网络,属于计算机视觉
技术介绍
[0002]随着互联网技术的发展和移动通讯设备的进步,网络视频领域突飞猛进。《中国互联网发展报告(2021)》显示,2020年中国网络视频市场规模达到了2412 亿元,同比增长44%,网络视频活跃用户规模达到10.01亿,同比增长2.14%,带来巨大机遇同时也迎来许多挑战。视频数据不仅数量庞大而且类型繁多,如用户自主拍摄视频,短视频,监控视频及新闻视频等,这使得网络视频内容的审核难度加大,同时用户对视频的快速浏览需求与日俱增。视频摘要技术的目的便是提取不同类型视频的关键信息,提升浏览效率。
[0003]研究视频摘要技术将有助于解决上述问题,视频摘要是以自动或半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取关键帧或感兴趣的目标的活动信息自动生成视频摘要,使得用户可以通过少量的关键信息快速浏览原始视频的内容。视频摘要 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.基于Transformer和深度强化学习的视频摘要生成网络,其特征在于:包括三个部分:编码、解码、优化;编码部分通过GooLeNet提取视频帧的深度特征,将特征向量输入Transformer编码部分,首先进行位置编码,之后传入self
‑
attention层,计算完成后进行残差连接和层正则化,最后经过前馈神经网络和再一次的残差连接和层正则化;视频帧经由GooLeNet提取深度特征后,假设共有M帧,则当前视频的特征集合可以表示为:X=x1,x2,
…
,x
M
,其中每个x的维度均为1024;首先要对特征进行位置编码,位置编码是Transformer重要组成部分,用于弥补attention无法获取位置信息的不足;位置编码的添加,首先要构造一个与输入特征同维度的矩阵PE(positional encoding),PE矩阵是二维矩阵,行表示当前视频的帧的位置,列表示帧的特征向量,对于PE矩阵的计算通过三角函数来完成,奇数位置用正弦函数,偶数位置用余弦函数,利用三角函数变换,则当前位置的PE可由上一位置的PE线性表示;对于PE矩阵的计算如下:对于PE矩阵的计算如下:其中,pos表示当前视频帧在视频帧序列中的位置索引,即pos=0,1,2
…
M
‑
1,i表示特征向量的维度,即i=0,1,2,
…
1/2d
model
‑
1,d
model
是视频帧维度大小,此处d
model
=1024;位置编码计算完成后,将其与输入特征集合X相加,进入encoder部分;首先进入多头自注意力层,即由多个自注意力层构成,对于输入序列X,经由三个矩阵W
Q
、W
K
、W
V
的线性映射,分别得到q
j
,k
j
,v
j
,j∈(1,2,3
…
M),将q1分别与k1,k2,k3…
k
M
进行点积运算,得到注意力分布a
1,1
,a
1,2
,a
1,3
,
…
,a
1,M
,将注意力分布经过softmax函数进行归一化得到0
‑
1之间的注意力权重,得到注意力权重后与对应的v1,v2,v3
…
,vM相乘,相乘结束进行求和运算得到x1对应自注意力的输出h1;对于Multi
‑
headed Self
‑
attention,则是在Self
‑
attention的基础上,将其映射到若干个其他空间运算,多头自注意力计算完成后,通过前馈神经网络层,完成空间变化,增加模型的表征能力;解码部分由双向LSTM完成,输出每一帧的重要性分数,通过标注计算出对应的Loss,动态摘要是基于镜头的选择,通过算术平均将帧级分数转换成镜头分数;编码端完成编码后,带有注意力权重的特征向量进入解码端;解码端由双向长短期记忆网络组成,BiLSTM将视频特征集合X作为输入得到对应的隐藏状态H=h1,h2,h3,
…
hM,H由一个正向遍历和逆向遍历的LSTM连接构成,通过这种方式能够获得更多的上下文信息;H计算完成后,经由全连接层和sigmoid函数得到帧级概率P=p1,p2,p3
…
pM,即当前帧是否为关键帧的概率;为了能够生成用于后续评估的摘要,需要对P进行伯努利采样得到动作A=a1,a2,a3
技术研发人员:武光利,李雷霆,张静,牛君会,
申请(专利权)人:李雷霆张静甘肃欧美亚信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。