【技术实现步骤摘要】
一种基于注意力机制3D残差网络的镜头运动识别方法
本专利技术涉及计算机视觉领域,尤其是一种基于注意力机制3D残差网络的镜头运动识别方法。
技术介绍
随着网络技术的发展,数字视频的普及,融媒体的兴起,视频数据的处理和分析技术变得越来越重要。视频作为对静态图像的扩展,其描述了更广阔的空间,并从时间维度上描述了事物的演变过程,然而同时也包含了大量冗余信息,如何使用相应的视频处理和分析技术从中提取所需的信息显得尤为重要。镜头是指由一台摄像机拍摄得到的时间上连续的图片序列组成的集合,是视频分解的基本单元,对镜头运动方式的识别在视频处理和分析相关应用中有重要作用,例如视频检索,智能剪辑等。在一个镜头中存在两种类型的运动来源,一种是运动目标的运动,另一种是拍摄相机的运动。镜头运动识别是指给定一个镜头,从而识别出拍摄相机的运动方式,其运动方式通常包含左/右/上/下移动、放大、缩小。为了识别镜头运动方式,现有方法通常通过基于两帧图像之间的光流或运动矢量场构建特征,然后通过人工构造的逻辑规则或训练支持向量机对该帧镜头运动进行识别。Kim ...
【技术保护点】
1.一种基于注意力机制3D残差网络的镜头运动识别方法,其特征在于,包括如下步骤:/n步骤一:构建镜头运动数据集;/n步骤二:构建含注意力机制的3D残差网络;/n步骤三:利用所述镜头运动数据集训练含注意力机制的3D残差网络,得到训练后的网络模型;/n步骤四:将待识别镜头运动的视频片段输入训练后的网络模型,从而得到镜头运动类别。/n
【技术特征摘要】
1.一种基于注意力机制3D残差网络的镜头运动识别方法,其特征在于,包括如下步骤:
步骤一:构建镜头运动数据集;
步骤二:构建含注意力机制的3D残差网络;
步骤三:利用所述镜头运动数据集训练含注意力机制的3D残差网络,得到训练后的网络模型;
步骤四:将待识别镜头运动的视频片段输入训练后的网络模型,从而得到镜头运动类别。
2.根据权利要求1所述的基于注意力机制3D残差网络的镜头运动识别方法,其特征在于,步骤一包括如下子步骤:
步骤101:根据具体任务需求确定需要分类的镜头运动类别;
步骤102:搜集具体任务相关镜头运动样本,并标注各个镜头运动样本的镜头运动类别,构成镜头运动数据集;
步骤103:将镜头运动数据集分为镜头运动训练集和镜头运动测试集;其中,镜头运动训练集作为训练含注意力机制的3D残差网络的输入数据;镜头运动测试集作为测试训练后的网络模型的输入数据。
3.根据权利要求2所述的基于注意力机制3D残差网络的镜头运动识别方法,其特征在于,步骤二包括如下子步骤:
步骤201:构建主干3D残差网络,所述主干3D残差网络的结构按串联顺序包括:1层3D卷积层、1层最大池化层、r个残差模块、1层平均池化层、1层全连接层、以及作为分类器的1层sigmoid层;每个所述残差模块包括3个3D卷积层,且每个3D卷积层后面都跟着1层批归一化层和1层ReLU激活层;
步骤202:构建注意力机制模块,所述注意力机制模块的结构按串联顺序包括:1层3D卷积层、1层批归一化层、1层ReLU激活层、1层3D卷积层、1层批归一化层、以及1层sigmoid层;
步骤203:将每个残差模块的输出作为对应注意力机制模块的输入,并将每个残差模块的输出与对应注意力机制模块的输出做...
【专利技术属性】
技术研发人员:温序铭,陆维琛,
申请(专利权)人:安徽索贝数码科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。