一种视频分类的方法、模型训练的方法及装置制造方法及图纸

技术编号:21433229 阅读:24 留言:0更新日期:2019-06-22 12:13
本申请公开了一种视频分类的方法,包括:获取待分类视频文件所对应的图像帧序列,其中,图像帧序列中包括T帧图像;通过图像分类网络模型获取图像帧序列所对应的外观信息特征序列,外观信息特征序列中包括T个外观信息特征,外观信息特征与图像帧具有对应关系;通过运动预测网络模型获取外观信息特征序列所对应的运动信息特征序列,运动信息特征序列包括T个运动信息特征,运动预测网络模型用于预测外观信息特征所对应的运动信息特征;根据外观信息特征序列以及运动信息特征序列确定待分类视频文件的视频分类结果。本申请还提供一种模型训练的方法以及装置。本申请能够节省计算时间和资源,从而提升了数据处理的效率。

【技术实现步骤摘要】
一种视频分类的方法、模型训练的方法及装置
本申请涉及人工智能领域,尤其涉及一种视频分类的方法、模型训练的方法及装置。
技术介绍
视频分类是指给定一个视频片段,对其中包含的内容进行分类。视频类别通常包括动作(比如做蛋糕)、场景(比如海滩)以及物体(比如桌子)等。其中,又以视频动作分类最为热门,毕竟动作本身就包含动态的因素,不是静态的图像所能描述的,因此,基于运动特征对视频进行分类是很常见的。目前,通常使用的视频分类技术主要是,首先对于从视频红绿蓝(redgreenblue,RGB)图像中提取的外观信息特征进行分类,然后进一步利用从光流图像中提取的运动信息特征来提升视频分类的性能。在提取运动信息特征的过程中,需要根据连续两帧或多帧的视频RGB图片计算光流图像,进而利用卷积神经网络或其他方法获得视频的运动信息特征。然而,在现有方案中需要根据至少两帧RGB图像对光流图像进行计算,对于视频而言,以24帧每秒的分辨率计算,短视频通常包含15秒以上的内容,而长视频常会长达几十分钟。因此,需要大量的时间和空间对光流图像进行计算,以获得视频的光流图像表示,从而导致数据处理的效率较低,且占用的计算资源和存储资源较多。
技术实现思路
本申请实施例提供了一种视频分类的方法、模型训练的方法及装置,能够实现对视频的自动分类,无需根据视频的外观信息特征计算光流图像,以利用光流图像计算运动信息特征。而是直接通过运动预测网络模型即可获取外观信息特征对应的运动信息特征,由此节省了计算时间和资源,从而提升了数据处理的效率。有鉴于此,本申请第一方面提供一种视频分类的方法,包括:获取待分类视频文件所对应的图像帧序列,其中,所述图像帧序列中包括T帧图像,所述T为大于1的整数;通过图像分类网络模型获取所述图像帧序列所对应的外观信息特征序列,其中,所述外观信息特征序列中包括T个外观信息特征,所述外观信息特征与所述图像帧具有对应关系;通过运动预测网络模型获取所述外观信息特征序列所对应的运动信息特征序列,其中,所述运动信息特征序列包括T个运动信息特征,所述运动信息特征与所述外观信息特征具有对应关系,所述运动预测网络模型用于预测所述外观信息特征所对应的所述运动信息特征;根据所述外观信息特征序列以及所述运动信息特征序列确定所述待分类视频文件的视频分类结果。本申请第二方面提供一种模型训练的方法,包括:获取待训练视频文件所对应的光流图序列,其中,所述光流图序列中包括多个光流图;获取所述待训练视频文件所对应的待训练外观信息特征序列,其中,所述待训练外观信息特征序列包括多个待训练外观信息特征;根据所述待训练视频文件所对应的所述光流图序列,获取真实运动信息特征序列,其中,所述真实运动信息特征序列包括T个真实运动信息特征,所述T为大于1的整数;通过待训练运动预测网络模型获取所述待训练外观信息特征序列所对应的预测运动信息特征序列,其中,所述预测运动信息特征序列包括T个预测运动信息特征;根据所述真实运动信息特征序列与所述预测运动信息特征序列,确定模型参数;采用所述模型参数对所述待训练运动预测网络模型进行训练,得到运动预测网络模型。本申请第三方面提供一种视频分类装置,包括:获取模块,用于获取待分类视频文件所对应的图像帧序列,其中,所述图像帧序列中包括T帧图像,所述T为大于1的整数;所述获取模块,还用于通过图像分类网络模型获取所述图像帧序列所对应的外观信息特征序列,其中,所述外观信息特征序列中包括T个外观信息特征,所述外观信息特征与所述图像帧具有对应关系;所述获取模块,还用于通过运动预测网络模型获取所述外观信息特征序列所对应的运动信息特征序列,其中,所述运动信息特征序列包括T个运动信息特征,所述运动信息特征与所述外观信息特征具有对应关系,所述运动预测网络模型用于预测所述外观信息特征所对应的所述运动信息特征;确定模块,用于根据所述获取模块获取的所述外观信息特征序列以及所述运动信息特征序列确定所述待分类视频文件的视频分类结果。在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,所述获取模块,具体用于获取所述待分类视频文件;对所述待分类视频文件进行解码处理,得到所述图像帧序列,其中,每个帧图像具有相同的采样频率。在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,所述获取模块,具体用于通过所述图像分类网络模型获取第t帧图像所对应的外观信息特征,其中,所述t大于或等于1,且小于或等于所述T的整数;当获取到所述T帧图像中每帧图像所对应的外观信息特征时,根据所述T个外观信息特征生成所述外观信息特征序列。在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,所述获取模块,具体用于获取第i个步骤所对应的第t个外观信息特征,其中,所述i为大于或等于1的整数,所述t大于或等于1,且小于或等于所述T的整数;获取第(i-1)个步骤所对应的第(t+1)个运动信息特征以及第(t-1)个运动信息特征;通过所述运动预测网络模型,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,确定所述第i个步骤所对应的第t个运动信息特征;当获取到所述T个外观信息特征中每个外观信息特征所对应的运动信息特征时,根据所述T个运动信息特征生成所述运动信息特征序列。在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,所述获取模块,具体用于通过所述运动预测网络模型的更新门,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,计算得到所述第i个步骤所对应的第(t+1)个更新门向量以及第(t-1)个更新门向量;通过所述运动预测网络模型的输出门,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,计算得到所述第i个步骤所对应的第(t+1)个输出门向量以及第(t-1)个输出门向量;通过所述运动预测网络模型的隐藏层,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征、第(t-1)个运动信息特征、所述第(t+1)个更新门向量以及所述第(t-1)个更新门向量,计算得到所述第i个步骤所对应的第t个隐藏层特征向量;通过所述运动预测网络模型的最终输出层,根据所述第t个隐藏层特征向量、所述第i个步骤所对应的第(t+1)个输出门向量以及第(t-1)个输出门向量,计算得到所述第i个步骤所对应的第t个运动信息特征。在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,所述获取模块,具体用于采用如下方式计算所述第(t+1)个更新门向量以及所述第(t-1)个更新门向量:其中,所述rt-1表示所述第i个步骤所对应的所述第(t-1)个更新门向量,所述t表示第t个时刻,所述rt+1表示所述第i个步骤所对应的所述第(t+1)个更新门向量,所述σ()表示线性整流函数,所述Wr表示第一参数矩阵,所述Ur,t-1表示所述第(t-1)个更新门向量所对应的第二参数矩阵,所述Ur,t+1表示所述第(t+1)个更新门向量所对应的第三参数矩阵,所述xt表示所述第t个外观信息特征,所述表示所述第(i-1)个步骤所对应的所述第(t-1)个运动信息特征,所述表示所述第(i-1)个步骤所对应的所述第(t+1)个本文档来自技高网...

【技术保护点】
1.一种视频分类的方法,其特征在于,包括:获取待分类视频文件所对应的图像帧序列,其中,所述图像帧序列中包括T帧图像,所述T为大于1的整数;通过图像分类网络模型获取所述图像帧序列所对应的外观信息特征序列,其中,所述外观信息特征序列中包括T个外观信息特征,所述外观信息特征与所述图像帧具有对应关系;通过运动预测网络模型获取所述外观信息特征序列所对应的运动信息特征序列,其中,所述运动信息特征序列包括T个运动信息特征,所述运动信息特征与所述外观信息特征具有对应关系,所述运动预测网络模型用于预测所述外观信息特征所对应的所述运动信息特征;根据所述外观信息特征序列以及所述运动信息特征序列确定所述待分类视频文件的视频分类结果。

【技术特征摘要】
1.一种视频分类的方法,其特征在于,包括:获取待分类视频文件所对应的图像帧序列,其中,所述图像帧序列中包括T帧图像,所述T为大于1的整数;通过图像分类网络模型获取所述图像帧序列所对应的外观信息特征序列,其中,所述外观信息特征序列中包括T个外观信息特征,所述外观信息特征与所述图像帧具有对应关系;通过运动预测网络模型获取所述外观信息特征序列所对应的运动信息特征序列,其中,所述运动信息特征序列包括T个运动信息特征,所述运动信息特征与所述外观信息特征具有对应关系,所述运动预测网络模型用于预测所述外观信息特征所对应的所述运动信息特征;根据所述外观信息特征序列以及所述运动信息特征序列确定所述待分类视频文件的视频分类结果。2.根据权利要求1所述的方法,其特征在于,所述获取待分类视频文件所对应的图像帧序列,包括:获取所述待分类视频文件;对所述待分类视频文件进行解码处理,得到所述图像帧序列,其中,每个帧图像具有相同的采样频率。3.根据权利要求1所述的方法,其特征在于,所述通过图像分类网络模型获取所述图像帧序列所对应的外观信息特征序列,包括:通过所述图像分类网络模型获取第t帧图像所对应的外观信息特征,其中,所述t大于或等于1,且小于或等于所述T的整数;当获取到所述T帧图像中每帧图像所对应的外观信息特征时,根据所述T个外观信息特征生成所述外观信息特征序列。4.根据权利要求1所述的方法,其特征在于,所述通过运动预测网络模型获取所述外观信息特征序列所对应的运动信息特征序列,包括:获取第i个步骤所对应的第t个外观信息特征,其中,所述i为大于或等于1的整数,所述t大于或等于1,且小于或等于所述T的整数;获取第(i-1)个步骤所对应的第(t+1)个运动信息特征以及第(t-1)个运动信息特征;通过所述运动预测网络模型,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,确定所述第i个步骤所对应的第t个运动信息特征;当获取到所述T个外观信息特征中每个外观信息特征所对应的运动信息特征时,根据所述T个运动信息特征生成所述运动信息特征序列。5.根据权利要求4所述的方法,其特征在于,所述根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,确定所述第i个步骤所对应的第t个运动信息特征,包括:通过所述运动预测网络模型的更新门,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,计算得到所述第i个步骤所对应的第(t+1)个更新门向量以及第(t-1)个更新门向量;通过所述运动预测网络模型的输出门,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,计算得到所述第i个步骤所对应的第(t+1)个输出门向量以及第(t-1)个输出门向量;通过所述运动预测网络模型的隐藏层,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征、第(t-1)个运动信息特征、所述第(t+1)个更新门向量以及所述第(t-1)个更新门向量,计算得到所述第i个步骤所对应的第t个隐藏层特征向量;通过所述运动预测网络模型的最终输出层,根据所述第t个隐藏层特征向量、所述第i个步骤所对应的第(t+1)个输出门向量以及第(t-1)个输出门向量,计算得到所述第i个步骤所对应的第t个运动信息特征。6.根据权利要求5所述的方法,其特征在于,所述通过所述运动预测网络模型的更新门,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,计算得到所述第i个步骤所对应的第(t+1)个更新门向量以及第(t-1)个更新门向量,包括:采用如下方式计算所述第(t+1)个更新门向量以及所述第(t-1)个更新门向量:其中,所述rt-1表示所述第i个步骤所对应的所述第(t-1)个更新门向量,所述t表示第t个时刻,所述rt+1表示所述第i个步骤所对应的所述第(t+1)个更新门向量,所述σ()表示线性整流函数,所述Wr表示第一参数矩阵,所述Ur,t-1表示所述第(t-1)个更新门向量所对应的第二参数矩阵,所述Ur,t+1表示所述第(t+1)个更新门向量所对应的第三参数矩阵,所述xt表示所述第t个外观信息特征,所述表示所述第(i-1)个步骤所对应的所述第(t-1)个运动信息特征,所述表示所述第(i-1)个步骤所对应的所述第(t+1)个运动信息特征;所述通过所述运动预测网络模型的输出门,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征以及第(t-1)个运动信息特征,计算得到所述第i个步骤所对应的第(t+1)个输出门向量以及第(t-1)个输出门向量,包括:采用如下方式计算所述第(t+1)个输出门向量以及所述第(t-1)个输出门向量:其中,所述zt+1表示所述第i个步骤所对应的所述第(t+1)个输出门向量,所述zt-1表示所述第i个步骤所对应的所述第(t-1)个输出门向量,所述z表示预设输出门向量,所述表示所述第i个步骤所对应的第(t-1)个待处理输出门向量,表示所述第i个步骤所对应的第(t+1)个待处理输出门向量,所述softmax()表示归一化处理函数,所述Wz表示第四参数矩阵,所述Uz,t-1表示所述第(t-1)个输出门向量所对应的第五参数矩阵,所述Uz,t+1表示所述第(t+1)个输出门向量所对应的第六参数矩阵;所述通过所述运动预测网络模型的隐藏层,根据所述第t个外观信息特征、所述第(t+1)个运动信息特征、第(t-1)个运动信息特征、所述第(t+1)个更新门向量以及所述第(t-1)个更新门向量,计算得到所述第i个步骤所对应的第t个隐藏层特征向量,包括:采用如下方式计算所述第t个隐藏层特征向量:其中,所述ht表示所述第i个步骤所对应的所述第t个隐藏层特征向量,所述φ()表示sigmoid函数,所述Wh表示第七参数矩阵,所述Uh表示第八参数矩阵,所述[]T表示矩阵转置,所述表示点乘;所述通过所述运动预测网络模型的最终输出层,根据所述第t个隐藏层特征向量、所述第i个步骤所对应的第(t+1)个输出门向量以及第(t-1)个输出门向量,计算得到所述第i个步骤所对应的第t个运动信息特征,包括:采用如下方式计算所述第t个运动信息特征:其中,所述表示所...

【专利技术属性】
技术研发人员:唐永毅马林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1