一种视频场景识别方法、系统及电子设备技术方案

技术编号:27412794 阅读:17 留言:0更新日期:2021-02-21 14:28
本发明专利技术涉及计算机技术领域,公开了一种视频场景识别方法、系统及电子设备,该方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。通过上述方式,本发明专利技术实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。提高视频场景识别的准确性。提高视频场景识别的准确性。

【技术实现步骤摘要】
一种视频场景识别方法、系统及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种视频场景识别方法、系统及电子设备。

技术介绍

[0002]随着计算机技术、人工智能的不断发展,场景识别作为计算机视觉的重要研究任务之一,其具有场景物体种类、数量多,语意模糊,类间差异小且类内差异大的难点,而在动态场景识别任务中,还需要处理视频数据,需要考虑到时空关系中视频帧可能存在模糊和变形的情况,这使得视频场景识别更加具有挑战性。
[0003]在基于图片的场景识别任务日趋饱和后,基于视频的场景识别也逐渐登上了舞台。目前的视频场景识别方法通常考虑视频场景识别中特有的时空关系特点,例如通过基于空间与时间信息融合进行场景识别;或者使用视频数据中除图像外的其他特征进行场景识别,例如:利用音频和视觉特征进行视频场景识别;或者通过新型的网络结构,例如基于回声状态网络(Echo State Network,ESN)进行场景识别、基于三维卷积神经网络(3D ConvNets)来对时空关系建模以进行场景识别。
[0004]但是上述场景识别方法均存在视频帧变形模糊的问题。

技术实现思路

[0005]本专利技术实施例的一个目的旨在提供一种视频场景识别方法、系统及电子设备,其能够需要解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0006]在第一方面,本专利技术实施例提供一种视频场景识别方法,所述方法包括:
[0007]接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;
[0008]将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;
[0009]将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;
[0010]对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;
[0011]根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。
[0012]在一些实施例中,所述获取所述视频帧图片序列对应的降维特征图,包括:
[0013]获取接收到的视频帧图片序列的输入通道数;
[0014]根据预设的超参数,确定所述视频帧图片序列的输出通道数,以生成所述视频帧图片序列对应的降维特征图。
[0015]在一些实施例中,所述根据预设的超参数,确定所述视频帧图片序列的输出通道数,包括:
[0016]若所述视频帧图片序列的输入通道数为M,则通过点卷积,将所述视频帧图片序列的每一帧降维至输出通道数为M/K的降维特征图,其中,K为预设的超参数,M≥K>0,且M为K的倍数。
[0017]在一些实施例中,所述将所述降维特征图基于预设空洞率进行空洞卷积,包括:
[0018]将所述输出通道数为M/K的降维特征图分为K个分支,并确定所述K个分支中每一个分支对应的预设空洞率;
[0019]基于所述每一分支对应的预设空洞率,并行对所述每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图。
[0020]在一些实施例中,所述确定所述K个分支中每一个分支对应的预设空洞率包括:
[0021]确定所述每一个分支对应的预设空洞率为2
k-1
,k={1,

,K};
[0022]所述基于每一分支对应的预设空洞率,并行对每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图包括:
[0023]采用卷积核大小为n
×
n,空洞率为2
k-1
的空洞卷积对所述降维特征图进行处理,以生成每一分支对应的空洞处理后的特征图。
[0024]在一些实施例中,所述将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,包括:
[0025]确定随意移动池化的最大参数;
[0026]根据所述最大参数,随机确定卷积核的随机移动的偏移量;
[0027]根据所述卷积核的随机移动的偏移量,对每一空洞处理后的特征图进行随机移动池化处理,以确定随机池化处理后的特征图。
[0028]在一些实施例中,所述确定随意移动池化的最大参数,包括:
[0029]当确定所述随意移动池化的最大参数为r时,确定随意移动池化的最大参数为:r=min(s-1,(k-1)/2-p),其中,s为卷积核的步长,k为卷积核的大小,p为填充量。
[0030]在一些实施例中,所述根据所述卷积核的随机移动的偏移量,对每一空洞处理后的特征图进行随机移动池化处理,以确定随机池化处理后的特征图,包括:
[0031][0032]其中,m为通道位置坐标,i为高度位置坐标,j为宽度位置坐标,y
m,i,j
为池化处理后的特征图在(m,i,j)位置的值,s为卷积核的步长,h为空洞处理后的特征图的长度,w为空洞处理后的特征图的宽度,为随机移动的x轴偏移量,为随机移动的y轴偏移量,w
m,i

,j

为空洞处理后的特征图在(m,i

,j

)位置的权重,x
m,i

,j

为空洞处理后的特征图在(m,i

,j

)位置的数值。
[0033]在第二方面,本专利技术实施例提供一种视频场景识别方法,所述方法包括:
[0034]获取训练数据集;
[0035]组合预设视频场景模型以及网络模型,并基于所述训练数据集,对所述预设视频场景模型以及所述网络模型组合后的模型进行训练,以生成视频场景识别模型;
[0036]将获取到的视频帧图片序列输入所述视频场景识别模型,以输出每一视频帧对应的场景类别预测。
[0037]在一些实施例中,所述网络模型应用如上所述的视频场景识别方法。
[0038]在第三方面,本专利技术实施例提供一种视频场景识别系统,所述系统包括:预设视频场景模型以及网络模型;
[0039]其中,所述网络模型应用如上所述的视频场景识别方法。
[0040]在第四方面,本专利技术实施例提供一种电子设备,包括:
[0041]至少一个处理器;和
[0042]与所述至少一个处理器通信连接的存储器;其中,
[0043]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的视频场景识别方法。
[0044]在第五方面,本专利技术实施例提供一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行上述的视频场景识别方法。
[0045]在第六方面,本专利技术实施例提供一种计算机程序,所述计算机程序包含程序指令,在所述程序指令由电子设备中的一个或多个处理器执行时,使所述电子设备执行上述的视频场景识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频场景识别方法,其特征在于,所述方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。2.根据权利要求1所述的方法,其特征在于,所述获取所述视频帧图片序列对应的降维特征图,包括:获取接收到的视频帧图片序列的输入通道数;根据预设的超参数,确定所述视频帧图片序列的输出通道数,以生成所述视频帧图片序列对应的降维特征图。3.根据权利要求2所述的方法,其特征在于,所述根据预设的超参数,确定所述视频帧图片序列的输出通道数,包括:若所述视频帧图片序列的输入通道数为M,则通过点卷积,将所述视频帧图片序列的每一帧降维至输出通道数为M/K的降维特征图,其中,K为预设的超参数,M≥K>0,且M为K的倍数。4.根据权利要求3所述的方法,其特征在于,所述将所述降维特征图基于预设空洞率进行空洞卷积,包括:将所述输出通道数为M/K的降维特征图分为K个分支,并确定所述K个分支中每一个分支对应的预设空洞率;基于所述每一分支对应的预设空洞率,并行对所述每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图。5.根据权利要求4所述的方法,其特征在于,所述确定所述K个分支中每一个分支对应的预设空洞率包括:确定所述每一个分支对应的预设空洞率为2
k-1
,k={1,...,K};所述基于每一分支对应的预设空洞率,并行对每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图包括:采用卷积核大小为n
×
n,空洞率为2k-1的空洞卷积对所述降维特征图进行处理,以生成每一分支对应的空洞处理后的特征图。6.根据权利要求1所述的方法,其特征在于,所述将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征...

【专利技术属性】
技术研发人员:叶力荣张国栋
申请(专利权)人:深圳市银星智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1