【技术实现步骤摘要】
一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
[0001]本专利技术以复杂场景下的网络直播视频为研究对象,通过联合注意力和ResNeSt网络进行直播视频特征提取,从而形成对直播视频的高效特征表达。首先利用并行特征金字塔,对视频关键帧进行特征卷积;在特征金字塔的卷积过程中,通过引入联合注意力机制获得视频的低层视觉信息和高层语义信息;最后结合拆分注意力残差网络(Residual Networks with Split
‑
Attention,ResNeSt),形成对网络直播视频的高效特征表达。
技术介绍
[0002]随着网络自媒体时代的到来,越来越多的人们开始以直播视频的形式在网络上分享自己的生活,网络直播视频也以几何级的数量不断增长。网络直播具有强大的吸粉能力和用户黏性,它给人们带来获取信息诸多便利的同时,也给运营商带来了丰厚的经济效益。然而,海量的网络直播视频也对网络信息安全和监管造成了严峻的挑战。网络直播从业门槛低、从业者多元复杂,拍摄的直播场景种类繁多,往往背景复杂,包含大量的人、 ...
【技术保护点】
【技术特征摘要】
1.一种基于联合注意力R
ES
N
E
S
T
的复杂场景下网络直播视频特征提取方法,其特征在于包括以下步骤:1)网络直播视频的并行特征金字塔构建构建了一个多尺度的并行特征金字塔结构;通过特征金字塔中的并行连接将不同尺度的特征图融合起来,并行连接包括1
×
1卷积的横向连接和随层数变化的斜向连接;并行连接中横向连接使用的是1
×
1的卷积;斜向连接使用3
×
3的卷积对特征图进行下采样,其步长可动态调整为2(m
‑
n),其中n和m分别为主干结构C
n
和并行结构D
m
的层级数下标;2)联合注意力驱动的特征金字塔设计首先沿通道轴向应用平均池化和最大池化操作,并将它们连接起来生成有效的特征描述符,通过此操作找出视频帧信息中需要被关注的区域,最终利用标准卷积可获得空间注意力;输入的特征图F按照取每个通道的最大池化和平均池化的结果,按顺序分别送入一个多层感知机MLP,把输出结果直接加起来,然后经过ReLU激活函数,得到空间注意力模块的特征图M
s
(F),整个过程如下式:其中,M
s
代表空间注意力,σ代表了ReLU非线性函数,f3×3代表卷积过程中利用3
×
3的卷积核;AvgPool代表上一层加权平均的池化操作,MaxPool代表获得上一层最大值的池化操作;F
savg
即为平均池化后的结果...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。