一种视频场景识别方法、系统及电子设备技术方案

技术编号:27412794 阅读:31 留言:0更新日期:2021-02-21 14:28
本发明专利技术涉及计算机技术领域,公开了一种视频场景识别方法、系统及电子设备,该方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。通过上述方式,本发明专利技术实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。提高视频场景识别的准确性。提高视频场景识别的准确性。

【技术实现步骤摘要】
一种视频场景识别方法、系统及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种视频场景识别方法、系统及电子设备。

技术介绍

[0002]随着计算机技术、人工智能的不断发展,场景识别作为计算机视觉的重要研究任务之一,其具有场景物体种类、数量多,语意模糊,类间差异小且类内差异大的难点,而在动态场景识别任务中,还需要处理视频数据,需要考虑到时空关系中视频帧可能存在模糊和变形的情况,这使得视频场景识别更加具有挑战性。
[0003]在基于图片的场景识别任务日趋饱和后,基于视频的场景识别也逐渐登上了舞台。目前的视频场景识别方法通常考虑视频场景识别中特有的时空关系特点,例如通过基于空间与时间信息融合进行场景识别;或者使用视频数据中除图像外的其他特征进行场景识别,例如:利用音频和视觉特征进行视频场景识别;或者通过新型的网络结构,例如基于回声状态网络(Echo State Network,ESN)进行场景识别、基于三维卷积神经网络(3D ConvNets)来对时空关系建模以进行场景识别。
[0004]但是上述场景识别方法均存在视频帧本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频场景识别方法,其特征在于,所述方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。2.根据权利要求1所述的方法,其特征在于,所述获取所述视频帧图片序列对应的降维特征图,包括:获取接收到的视频帧图片序列的输入通道数;根据预设的超参数,确定所述视频帧图片序列的输出通道数,以生成所述视频帧图片序列对应的降维特征图。3.根据权利要求2所述的方法,其特征在于,所述根据预设的超参数,确定所述视频帧图片序列的输出通道数,包括:若所述视频帧图片序列的输入通道数为M,则通过点卷积,将所述视频帧图片序列的每一帧降维至输出通道数为M/K的降维特征图,其中,K为预设的超参数,M≥K>0,且M为K的倍数。4.根据权利要求3所述的方法,其特征在于,所述将所述降维特征图基于预设空洞率进行空洞卷积,包括:将所述输出通道数为M/K的降维特征图分为K个分支,并确定所述K个分支中每一个分支对应的预设空洞率;基于所述每一分支对应的预设空洞率,并行对所述每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图。5.根据权利要求4所述的方法,其特征在于,所述确定所述K个分支中每一个分支对应的预设空洞率包括:确定所述每一个分支对应的预设空洞率为2
k-1
,k={1,...,K};所述基于每一分支对应的预设空洞率,并行对每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图包括:采用卷积核大小为n
×
n,空洞率为2k-1的空洞卷积对所述降维特征图进行处理,以生成每一分支对应的空洞处理后的特征图。6.根据权利要求1所述的方法,其特征在于,所述将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征...

【专利技术属性】
技术研发人员:叶力荣张国栋
申请(专利权)人:深圳市银星智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1