一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法技术

技术编号:28057331 阅读:35 留言:0更新日期:2021-04-14 13:29
本发明专利技术涉及一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法。首先对网络直播视频进行关键帧提取,得到视频的关键帧数据。为了利用视频帧的多尺度特征,按照特征金字塔网络的多尺度结构,设计了一个并行通路。该并行通路是自下而上构建的,与原有主干通路之间利用横向连接和斜向连接进行信息交换,其中横向连接和斜向连接均为卷积运算。考虑到网络直播的画面表现形式多以人为主体,同时夹杂大量冗余信息,因此引入空间——通道联合注意力,便于聚焦画面主体特征。最后,将融合了联合注意力的并行特征金字塔结合卷积层和池化层,构造ResNeSt特征提取模块,通过多层模块叠加,实现复杂场景下网络直播视频的特征提取。取。取。

【技术实现步骤摘要】
一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法


[0001]本专利技术以复杂场景下的网络直播视频为研究对象,通过联合注意力和ResNeSt网络进行直播视频特征提取,从而形成对直播视频的高效特征表达。首先利用并行特征金字塔,对视频关键帧进行特征卷积;在特征金字塔的卷积过程中,通过引入联合注意力机制获得视频的低层视觉信息和高层语义信息;最后结合拆分注意力残差网络(Residual Networks with Split

Attention,ResNeSt),形成对网络直播视频的高效特征表达。

技术介绍

[0002]随着网络自媒体时代的到来,越来越多的人们开始以直播视频的形式在网络上分享自己的生活,网络直播视频也以几何级的数量不断增长。网络直播具有强大的吸粉能力和用户黏性,它给人们带来获取信息诸多便利的同时,也给运营商带来了丰厚的经济效益。然而,海量的网络直播视频也对网络信息安全和监管造成了严峻的挑战。网络直播从业门槛低、从业者多元复杂,拍摄的直播场景种类繁多,往往背景复杂,包含大量的人、物和标识。因此,如何本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联合注意力R
ES
N
E
S
T
的复杂场景下网络直播视频特征提取方法,其特征在于包括以下步骤:1)网络直播视频的并行特征金字塔构建构建了一个多尺度的并行特征金字塔结构;通过特征金字塔中的并行连接将不同尺度的特征图融合起来,并行连接包括1
×
1卷积的横向连接和随层数变化的斜向连接;并行连接中横向连接使用的是1
×
1的卷积;斜向连接使用3
×
3的卷积对特征图进行下采样,其步长可动态调整为2(m

n),其中n和m分别为主干结构C
n
和并行结构D
m
的层级数下标;2)联合注意力驱动的特征金字塔设计首先沿通道轴向应用平均池化和最大池化操作,并将它们连接起来生成有效的特征描述符,通过此操作找出视频帧信息中需要被关注的区域,最终利用标准卷积可获得空间注意力;输入的特征图F按照取每个通道的最大池化和平均池化的结果,按顺序分别送入一个多层感知机MLP,把输出结果直接加起来,然后经过ReLU激活函数,得到空间注意力模块的特征图M
s
(F),整个过程如下式:其中,M
s
代表空间注意力,σ代表了ReLU非线性函数,f3×3代表卷积过程中利用3
×
3的卷积核;AvgPool代表上一层加权平均的池化操作,MaxPool代表获得上一层最大值的池化操作;F
savg
即为平均池化后的结果...

【专利技术属性】
技术研发人员:张菁康俊鹏张广朋卓力
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1