【技术实现步骤摘要】
视频分类模型构建、视频分类的方法、装置、设备及介质
本申请一般涉及数据处理
,具体涉及视频数据处理
,尤其涉及视频分类模型构建、视频分类的方法、装置、设备及介质。
技术介绍
目前,在使用三维卷积神经网络对视频进行分类时,一般通过在卷积神经网络中的设置多个卷积层,该卷积层获取待分类视频的每帧视频帧中的特征,得到特征图;然后基于特征图对视频进行分类。由上述描述可知,现有技术在获取特征图时,是基于视频帧中每帧图像的各像素周围的信息得到的,因此限制了特征图内容信息的丰富性,导致分类不够准确。
技术实现思路
鉴于现有技术不能对视频进行准确分类的问题,本申请提出了视频分类模型构建、分类方法、装置、设备及介质,构建的视频分类模型能够提高视频分类的准确性。第一方面,本申请实施例提供了一种视频分类模型构建的方法,该方法包括:获取训练集数据,训练集数据包括多帧视频帧;将训练集数据输入待训练分类模型,待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块; >通过非局部模块提取本文档来自技高网...
【技术保护点】
1.一种视频分类模型构建方法,其特征在于,所述方法包括:/n获取训练集数据,所述训练集数据包括多帧视频帧;/n将所述训练集数据输入待训练分类模型,所述待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块;/n通过所述非局部模块提取所述多帧视频帧的长距离依赖特征,所述长距离依赖特征用于表示所述多帧视频帧所包含的空间位置之间的关联关系;/n将所述长距离依赖特征输出到所述输出层组,输出所述多帧视频帧的预测分类结果;/n通过预设的预测损失函数对所述待训练分类模型进行训练,直至所述待训练分类模型中的参数收敛,得到视频分类模型。/n
【技术特征摘要】
1.一种视频分类模型构建方法,其特征在于,所述方法包括:
获取训练集数据,所述训练集数据包括多帧视频帧;
将所述训练集数据输入待训练分类模型,所述待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块;
通过所述非局部模块提取所述多帧视频帧的长距离依赖特征,所述长距离依赖特征用于表示所述多帧视频帧所包含的空间位置之间的关联关系;
将所述长距离依赖特征输出到所述输出层组,输出所述多帧视频帧的预测分类结果;
通过预设的预测损失函数对所述待训练分类模型进行训练,直至所述待训练分类模型中的参数收敛,得到视频分类模型。
2.根据权利要求1所述的视频分类模型构建方法,其特征在于,所述待训练分类模型所包括的每个卷积层组包括至少一个瓶颈模块,且所述瓶颈模块与所述非局部模块位于同一个卷积层组时,将所述瓶颈模块和所述非局部模块间隔设置;
所述多帧视频帧对应的特征图通过所述瓶颈模块进行深度可分离卷积处理,同时对深度可分离卷积处理后的特征图进行通道翻倍处理,得到第一特征图组;
将所述第一特征图组输入所述非局部模块,所述非局部模块计算每张所述特征图所包含的空间位置之间的对应关系,作为长距离依赖特征,输出包含所述长距离依赖特征的第二特征图组。
3.根据权利要求1所述的视频分类模型构建方法,其特征在于,所述预测损失函数包括:
其中,y=1表示训练样本为正样本,y=0表示训练样本为负样本,y′表示训练样本为正样本时,所述待训练分类模型输出的概率值,取值范围是大于等于0,小于等于1;其中,γ为预设数值。
4.根据权利要求1所述的视频分类模型构建方法,其特征在于,所述获取训练集数据包括:
对待处理视频按照时间位置抽取多帧视频帧;
确定所述多帧视频帧中的每帧视频帧的空间位置;
按照预定的空间尺寸对确定空间位置后的视频帧进行多尺度裁剪;
将经过裁剪处理后的视频帧进行缩放、翻转处理得到所述训练集数据。
5.一种视频分类方法,其特征在于,所述方法包括:
获取待分类的视频;
按照预设时间位置从所述视频中获取多帧视频帧;
将所述多帧视频帧输入至预先训练得到的视频分类模型,输出所述多帧视频帧的至少一个分类标签;所述视频分类模型通过权利要求1-4任一项所述的视频分类模型的训练方法训练得到;
根据所述多帧视频帧的至少一个分类标签标识所述视频的类别。
6.一种视频分类模型构建装置,其特征在于,所述装置包括:
第一获取模块,用于获取训练集数据,所述训练集数据包括多帧视频帧;
输入模块,用于将所述训练集数据输入待训练分类模型,所述待训练分类模型包括多个卷积层组和一个输出层组,其中部分卷积层组包括非局部模块;
提取模块,用于通...
【专利技术属性】
技术研发人员:陈楚城,王瑞琛,王晓利,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。