一种基于注意力机制的自适应视频分类方法及系统技术方案

技术编号：26731235 阅读：20 留言：0更新日期：2020-12-15 14:33

本申请提供了一种基于注意力机制的自适应视频分类方法及系统，在本申请提供的方法中，先获取无监督视频流作为目标域视频流；再获取有有标注的图像数据和视频数据作为源域数据集；然后利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练，以输出目标域视频流的特征参数；最后基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。基于本申请提供的基于注意力机制的自适应视频分类方法及系统，将针对现有模型的缺陷，采用web上的图像和视频数据作为源域数据集，增加源域数据的多样性，并通过注意力机制降低源域数据的噪声影响，提高分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的自适应视频分类方法及系统
本申请涉及视频分类
，特别是涉及一种基于注意力机制的自适应视频分类方法及系统。
技术介绍
视频分类是计算机视觉中经过深入研究的问题，是指给定一个视频片段，对其中包含的内容进行分类，类别通常是动作，场景，物体等，在监视和人机交互等领域具有许多重要的应用。一般采用基于深度学习的方法来进行视频分类，但是训练深度神经网络通常需要大量的带标记数据集，然而视频领域的多样性和人工标注的昂贵性，足够多的标记数据是难以获得的，因此无监督的自适应视频分类方法逐渐成为研究热点。目前现有的自适应视频分类模型对于源域数据的选择具有一定的局限性，当源域数据和目标域数据差异较大时会降低分类器性能，而且源域数据中噪声的影响也会使得分类器获得较差的准确性。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的一个方面，提供了一种基于注意力机制的自适应视频分类方法，包括：获取无监督视频流作为目标域视频流；获取有标注的图...

【技术保护点】
1.一种基于注意力机制的自适应视频分类方法，包括：/n获取无监督视频流作为目标域视频流；/n获取有标注的图像数据和视频数据作为源域数据集；/n利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数；/n基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签。/n

【技术特征摘要】
1.一种基于注意力机制的自适应视频分类方法，包括：
获取无监督视频流作为目标域视频流；
获取有标注的图像数据和视频数据作为源域数据集；
利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数；
基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签。

2.根据权利要求1所述的方法，其特征在于，所述获取有标注的图像数据和视频数据作为源域数据集，包括：
基于预设网络数据集分别选取有标注的图像数据和视频数据作为源域数据集；
对所述源域数据集进行预处理；其中，预处理包括数据大小的调整和/或视频帧的提取。

3.根据权利要求1所述的方法，其特征在于，采用生成对抗网络作为所述领域自适应模型；
所述生成对抗网络包括图像生成对抗网络和视频生成对抗网络；
所述图像生成对抗网络包括二维卷积神经网络模型，所述视频生成对抗网络包括三维卷积神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数，包括：
将所述目标域视频流和所述源域数据集输入所述二维卷积神经网络模型进行图像特征训练，基于注意力机制分别对所述源域数据集中图像数据的图像特征、视频数据中视频帧的图像特征与所述目标域视频流中视频帧的图像特征进行比对，输出图像特征比对后的第一权重；
将所述目标域视频流、所述源域数据集、第一权重输入所述三维卷积神经网络模型进行视频特征训练，基于注意力机制对所述源域数据集中的视频数据中视频帧的视频特征与所述目标域视频流中视频帧的视频特征进行比对，输出视频特征比对后的第二权重，进而输出所述目标域视频流的特征参数。

5.根据权利要求1所述的模型，其特征在于，所述基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签，包括：
采用softmax激活函数基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签；
将所述类别标签添加至所述...

【专利技术属性】
技术研发人员：吉长江，
申请(专利权)人：北京影谱科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人