视频场景识别方法、装置、存储介质和电子装置制造方法及图纸

技术编号：21914534 阅读：24 留言：0更新日期：2019-08-21 12:36

本发明专利技术公开了一种视频场景识别方法、装置、存储介质和电子装置。其中，该方法包括：获取将要进行场景识别的目标视频；对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果；基于第一分类结果和第二分类结果确定目标视频的目标场景。本发明专利技术解决了相关技术中对视频场景进行识别的准确率低的技术问题。

Video Scene Recognition Method, Device, Storage Media and Electronic Device

全部详细技术资料下载

【技术实现步骤摘要】
视频场景识别方法、装置、存储介质和电子装置
本专利技术涉及计算机领域，具体而言，涉及一种视频场景识别方法、装置、存储介质和电子装置。
技术介绍
目前，场景识别主要是基于图像的场景识别，可以通过场景识别的应用程序自动识别出图像中的数十种常见的场景，比如，识别出天空、草地、人物等场景。在相关技术中，在对视频进行识别时，只基于单一模态来进行场景识别，比如，通过视频特征这单一模态来进行场景识别。另外，对于画面特征比较分散、帧间运动变化比较大的场景很容易造成误判，比如，对电视视频、美食视频等识别的准确率低。针对上述的对视频场景进行识别的准确率低的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种视频场景识别方法、装置、存储介质和电子装置，以至少解决相关技术中对视频场景进行识别的准确率低的技术问题。根据本专利技术实施例的一个方面，提供了一种视频场景识别方法。该方法包括：获取将要进行场景识别的目标视频；对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；基于第一分类结果和第二分类结果确定目标视频的目标...

【技术保护点】
1.一种视频场景识别方法，其特征在于，包括：获取将要进行场景识别的目标视频；对所述目标视频的视频序列进行抽帧采样，得到子视频序列，并对所述目标视频的音频序列进行抽帧采样，得到子音频序列；从所述子视频序列中提取出目标视频特征，并从所述子音频序列中提取出目标音频特征；通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果，其中，所述第一目标模型为通过视频特征样本和与所述视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，所述第二目标模型为通过音频特征样本和与所述音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景。

【技术特征摘要】
1.一种视频场景识别方法，其特征在于，包括：获取将要进行场景识别的目标视频；对所述目标视频的视频序列进行抽帧采样，得到子视频序列，并对所述目标视频的音频序列进行抽帧采样，得到子音频序列；从所述子视频序列中提取出目标视频特征，并从所述子音频序列中提取出目标音频特征；通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果，其中，所述第一目标模型为通过视频特征样本和与所述视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，所述第二目标模型为通过音频特征样本和与所述音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景。2.根据权利要求1所述的方法，其特征在于，通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果包括：通过所述第一目标模型对所述目标视频特征进行处理，得到所述目标视频帧对应的多个第一类别的第一结果；通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果包括：通过第二目标模型对所述目标音频特征进行处理，得到所述目标音频特征对应的多个第二类别的第二结果。3.根据权利要求2所述的方法，其特征在于，通过所述第一目标模型对所述目标视频特征进行处理，得到所述目标视频帧对应的多个第一类别的第一结果包括：通过所述第一目标模型对所述目标视频特征进行处理，得到所述目标视频帧分别属于所述多个第一类别的第一概率，得到多个第一概率；通过第二目标模型对所述目标音频特征进行处理，得到所述目标音频特征对应的多个第二类别的第二结果包括：通过所述第二目标模型对所述目标音频特征进行处理，得到所述目标音频特征分别属于所述多个第二类别的第二概率，得到多个第二概率。4.根据权利要求3所述的方法，其特征在于，基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景包括：在所述多个第一概率和所述多个第二概率中，根据相同类别的所述第一概率和所述第二概率确定所述相同类别的目标概率，得到至少一个目标概率，其中，所述多个第一类别和所述多个第二类别包括所述相同类别；将所述至少一个目标概率中大于目标阈值的概率或者最大的概率所对应的所述相同类别，确定为目标类别；将所述目标类别的场景确定为所述目标场景。5.根据权利要求4所述的方法，其特征在于，根据相同类别的所述第一概率和所述第二概率确定所述相同类别的目标概率包括：将所述相同类别的所述第一概率和所述第二概率二者之间的平均概率，确定为所述目标概率。6.根据权利要求1所述的方法，其特征在于，通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果包括：通过所述第一目标模型中的第一时序模型对所述目标视频特征进行处理，得到携带有第一时序信息的视频特征向量，其中，所述第一时序模型为通过所述视频特征样本和与所述视频特征样本对应的时序信息对第一子时序模型进行训练，所得到的用于获得携带有时序信息的视频特征向量的模型；通过所述第一目标模型中的第一分类模型对所述视频特征向量进行处理，得到所述第一分类结果，其中，所述第一分类模型为通过与所述视频特征样本对应的视频特征向量样本和与所述视频特征向量样本对应的类别对第一子分类模型进行训练，所得到的用于识别所述视频特征向量的类别的模型。7.根据权利要求6所述的方法，其特征在于，在通过所述第一目标模型中的第一时序模型对所述目标视频特征进行处理，得到携带有第一时序信息的视频特征向量之前，所述方法还包括：通过所述视频特征样本和与所述视频特征样本对应的时序信息对所述第一子时序模型按照正则化规则进行训练，得到所述第一时序模型，其中，所述正则化规...

【专利技术属性】
技术研发人员：易阳，涂娟辉，李峰，高孟平，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人