场景检测方法、电子设备和存储介质技术

技术编号:38613150 阅读:19 留言:0更新日期:2023-08-26 23:40
本公开提供一种场景检测方法、电子设备和存储介质,涉及人工智能技术领域。该场景检测方法应用于移动终端中,包括:接收可穿戴设备采集的视频流,从视频流中分别提取图像帧和音频帧,其中,图像帧的采样频率低于音频帧的采样频率;将图像帧输入第一网络中提取图像特征,将音频帧输入第二网络中提取音频特征,其中,第一网络和第二网络的输出维度相同,且第一网络的推理频率低于第二网络的推理频率;将图像特征和音频特征进行融合,得到融合特征;将融合特征输入第三网络中,推理融合特征对应的场景类别;以及基于多个场景类别,确定视频流的最终场景类别。流的最终场景类别。流的最终场景类别。

【技术实现步骤摘要】
场景检测方法、电子设备和存储介质


[0001]本公开涉及人工智能
,具体涉及一种场景检测方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术以及多媒体技术的发展,视频的种类越来越多,视频涉及的场景也越来越丰富。视频涉及的场景例如可以包括驾车、开会、图书馆等。由于视频所处的实时场景是反映视频内容的重要信息,识别视频中的场景可以更好地理解视频的内容。

技术实现思路

[0003]本公开提供了一种场景检测方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据第一方面,本公开提供了一种场景检测方法,应用于移动终端中,包括:接收可穿戴设备采集的视频流,从视频流中分别提取图像帧和音频帧,其中,图像帧的采样频率低于音频帧的采样频率;将图像帧输入第一网络中提取图像特征,将音频帧输入第二网络中提取音频特征,其中,第一网络和第二网络的输出维度相同,且第一网络的推理频率低于第二网络的推理频率;将图像特征和音频特征进行融合,得到融合特征;将融合特征输入第三网络中,推理融合特征对应的场景类别;以及本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种场景检测方法,应用于移动终端中,包括:接收可穿戴设备采集的视频流,从所述视频流中分别提取图像帧和音频帧,其中,所述图像帧的采样频率低于所述音频帧的采样频率;将所述图像帧输入第一网络中提取图像特征,将所述音频帧输入第二网络中提取音频特征,其中,所述第一网络和所述第二网络的输出维度相同,且所述第一网络的推理频率低于所述第二网络的推理频率;将所述图像特征和所述音频特征进行融合,得到融合特征;将所述融合特征输入第三网络中,推理所述融合特征对应的场景类别;以及基于多个所述场景类别,确定所述视频流的最终场景类别。2.根据权利要求1所述的方法,其中,所述方法还包括:对每个所述音频帧进行去噪处理;以及对每个图像帧执行以下操作中的至少之一:将所述图像帧缩放至预设尺寸;将所述图像帧转换为灰度图像帧;对所述图像帧进行降噪。3.根据权利要求1所述的方法,其中,所述第一网络为分类神经网络,所述第一网络的最后一个归一化层被去除。4.根据权利要求1所述的方法,其中,所述第二网络包括依次连接的特征提取网络、长短时记忆网络和第一全连接层;所述将所述音频帧输入第二网络中提取音频特征包括:基于所述特征提取网络提取所述音频帧的频谱特征;基于所述长短时记忆网络对所述频谱特征进行提取得到第一音频特征;基于所述第一全连接层将所述第一音频特征投影到与所述图像特征相同的输出维度,得到所述音频特征。5.根据权利要求4所述的方法,其中,所述频谱特征包括梅尔滤波器组特征和梅尔倒谱系数特征;提取所述音频帧的梅尔滤波器组特征包括:从所述音频帧中提取时域信号;对所述时域信号进行傅里叶变换处理,得到频域信号;对所述频域信...

【专利技术属性】
技术研发人员:李林峰请求不公布姓名
申请(专利权)人:湖北星纪魅族科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1