视频场景识别方法、装置、存储介质和电子装置制造方法及图纸

技术编号:21914534 阅读:24 留言:0更新日期:2019-08-21 12:36
本发明专利技术公开了一种视频场景识别方法、装置、存储介质和电子装置。其中,该方法包括:获取将要进行场景识别的目标视频;对目标视频的视频序列进行抽帧采样,得到子视频序列,并对目标视频的音频序列进行抽帧采样,得到子音频序列;从子视频序列中提取出目标视频特征,并从子音频序列中提取出目标音频特征;通过第一目标模型对目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对目标音频特征进行处理,得到第二分类结果;基于第一分类结果和第二分类结果确定目标视频的目标场景。本发明专利技术解决了相关技术中对视频场景进行识别的准确率低的技术问题。

Video Scene Recognition Method, Device, Storage Media and Electronic Device

【技术实现步骤摘要】
视频场景识别方法、装置、存储介质和电子装置
本专利技术涉及计算机领域,具体而言,涉及一种视频场景识别方法、装置、存储介质和电子装置。
技术介绍
目前,场景识别主要是基于图像的场景识别,可以通过场景识别的应用程序自动识别出图像中的数十种常见的场景,比如,识别出天空、草地、人物等场景。在相关技术中,在对视频进行识别时,只基于单一模态来进行场景识别,比如,通过视频特征这单一模态来进行场景识别。另外,对于画面特征比较分散、帧间运动变化比较大的场景很容易造成误判,比如,对电视视频、美食视频等识别的准确率低。针对上述的对视频场景进行识别的准确率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种视频场景识别方法、装置、存储介质和电子装置,以至少解决相关技术中对视频场景进行识别的准确率低的技术问题。根据本专利技术实施例的一个方面,提供了一种视频场景识别方法。该方法包括:获取将要进行场景识别的目标视频;对目标视频的视频序列进行抽帧采样,得到子视频序列,并对目标视频的音频序列进行抽帧采样,得到子音频序列;从子视频序列中提取出目标视频特征,并从子音频序列中提取出目标音频特征;通过第一目标模型对目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对目标音频特征进行处理,得到第二分类结果,其中,第一目标模型为通过视频特征样本和与视频特征样本对应的类别,进行训练得到的用于确定视频特征的分类结果的模型,第二目标模型为通过音频特征样本和与音频特征样本对应的类别,进行训练得到的用于确定音频特征的分类结果的模型;基于第一分类结果和第二分类结果确定目标视频的目标场景。根据本专利技术实施例的另一方面,还提供了一种视频场景识别装置。该装置包括:获取单元,用于获取将要进行场景识别的目标视频;抽帧单元,用于对目标视频的视频序列进行抽帧采样,得到子视频序列,并对目标视频的音频序列进行抽帧采样,得到子音频序列;提取单元,用于从子视频序列中提取出目标视频特征,并从子音频序列中提取出目标音频特征;处理单元,用于通过第一目标模型对目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对目标音频特征进行处理,得到第二分类结果,其中,第一目标模型为通过视频特征样本和与视频特征样本对应的类别,进行训练得到的用于确定视频特征的分类结果的模型,第二目标模型为通过音频特征样本和与音频特征样本对应的类别,进行训练得到的用于确定音频特征的分类结果的模型;确定单元,用于基于第一分类结果和第二分类结果确定目标视频的目标场景。根据本专利技术实施例的另一方面,还提供了一种存储介质。该存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行本专利技术实施例的视频场景识别方法。根据本专利技术实施例的另一方面,还提供了一种电子装置。该电子装置包括存储器和处理器,其特征在于,存储器中存储有计算机程序,处理器被设置为通过计算机程序执行本专利技术实施例的视频场景识别方法。在本专利技术实施例中,获取将要进行场景识别的目标视频;对目标视频的视频序列进行抽帧采样,得到子视频序列,并对目标视频的音频序列进行抽帧采样,得到子音频序列;从子视频序列中提取出目标视频特征,并从子音频序列中提取出目标音频特征;通过第一目标模型对目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对目标音频特征进行处理,得到第二分类结果,其中,第一目标模型为通过视频特征样本和与视频特征样本对应的类别,进行训练得到的用于确定视频特征的分类结果的模型,第二目标模型为通过音频特征样本和与音频特征样本对应的类别,进行训练得到的用于确定音频特征的分类结果的模型;基于第一分类结果和第二分类结果确定目标视频的目标场景。也就是说,从视频信息与音频信息融合的角度出发,将从目标视频的视频序列中提取出的视频特征的分类结果和从音频序列中提取出的音频特征的分类结果,这两种单模态信息进行融合,实现双模态特征融合的场景识别的目的,避免了基于视频特征单一模态来进行场景识别,从而实现了提高对视频场景进行识别的准确率的技术效果,进而解决了相关技术中对视频场景进行识别的准确率低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种视频场景识别方法的硬件环境的示意图;图2是根据本专利技术实施例的一种视频场景识别方法的流程图;图3A是根据本专利技术实施例的一种基于音视频特征融合的视频场景识别方法的示意图;图3B是根据本专利技术实施例的另一种基于音视频特征融合的视频场景识别方法的示意图;图4A是根据本专利技术实施例的一种场景识别的示意图;图4B是根据本专利技术实施例的另一种场景识别的示意图;图5是根据本专利技术实施例的一种视频场景识别装置的示意图;以及图6是根据本专利技术实施例的一种电子装置的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例的一个方面,提供了一种视频场景识别方法的实施例。根据本专利技术实施例的一个方面,提供了一种视频场景识别方法。可选地,作为一种可选的实施方式,上述视频场景识别方法可以但不限于应用于如图1所示的环境中。其中,图1是根据本专利技术实施例的一种视频场景识别的硬件环境的示意图。如图1所示,用户102可以与用户设备104之间可以进行数据交互,用户设备104中可以但不限于包括存储器106和处理器108。在该实施例中,用户设备104可以输入将要进行场景识别的目标视频,可以通过处理器108执行步骤S102,通过网络110将上述目标视频的数据发送给服务器112。服务器112中包含有数据库114和处理器116。服务器112在获取到上述目标视频的数据之后,处理器116对目标视频的视频序列进行抽帧采样,得到子视频序列,并对目标视频的音频序列进行抽帧采样,得到子音频序列;从子视频序列中提取出目标视频特征,并从子音频序列中提取出目标音频特征;通过第一目标模型对目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对目标音频特征进行处理,得到第二分类结果,基于第一分类结果和第二分类结果确定目标视频的目标场景,可以将目标视频的目标场景的结果存储至数据库114中,进而执行步骤S104,通过网络110将将目标视频的目标场景的结果返回给用户设备104。本文档来自技高网
...

【技术保护点】
1.一种视频场景识别方法,其特征在于,包括:获取将要进行场景识别的目标视频;对所述目标视频的视频序列进行抽帧采样,得到子视频序列,并对所述目标视频的音频序列进行抽帧采样,得到子音频序列;从所述子视频序列中提取出目标视频特征,并从所述子音频序列中提取出目标音频特征;通过第一目标模型对所述目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对所述目标音频特征进行处理,得到第二分类结果,其中,所述第一目标模型为通过视频特征样本和与所述视频特征样本对应的类别,进行训练得到的用于确定视频特征的分类结果的模型,所述第二目标模型为通过音频特征样本和与所述音频特征样本对应的类别,进行训练得到的用于确定音频特征的分类结果的模型;基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景。

【技术特征摘要】
1.一种视频场景识别方法,其特征在于,包括:获取将要进行场景识别的目标视频;对所述目标视频的视频序列进行抽帧采样,得到子视频序列,并对所述目标视频的音频序列进行抽帧采样,得到子音频序列;从所述子视频序列中提取出目标视频特征,并从所述子音频序列中提取出目标音频特征;通过第一目标模型对所述目标视频特征进行处理,得到第一分类结果,并通过第二目标模型对所述目标音频特征进行处理,得到第二分类结果,其中,所述第一目标模型为通过视频特征样本和与所述视频特征样本对应的类别,进行训练得到的用于确定视频特征的分类结果的模型,所述第二目标模型为通过音频特征样本和与所述音频特征样本对应的类别,进行训练得到的用于确定音频特征的分类结果的模型;基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景。2.根据权利要求1所述的方法,其特征在于,通过第一目标模型对所述目标视频特征进行处理,得到第一分类结果包括:通过所述第一目标模型对所述目标视频特征进行处理,得到所述目标视频帧对应的多个第一类别的第一结果;通过第二目标模型对所述目标音频特征进行处理,得到第二分类结果包括:通过第二目标模型对所述目标音频特征进行处理,得到所述目标音频特征对应的多个第二类别的第二结果。3.根据权利要求2所述的方法,其特征在于,通过所述第一目标模型对所述目标视频特征进行处理,得到所述目标视频帧对应的多个第一类别的第一结果包括:通过所述第一目标模型对所述目标视频特征进行处理,得到所述目标视频帧分别属于所述多个第一类别的第一概率,得到多个第一概率;通过第二目标模型对所述目标音频特征进行处理,得到所述目标音频特征对应的多个第二类别的第二结果包括:通过所述第二目标模型对所述目标音频特征进行处理,得到所述目标音频特征分别属于所述多个第二类别的第二概率,得到多个第二概率。4.根据权利要求3所述的方法,其特征在于,基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景包括:在所述多个第一概率和所述多个第二概率中,根据相同类别的所述第一概率和所述第二概率确定所述相同类别的目标概率,得到至少一个目标概率,其中,所述多个第一类别和所述多个第二类别包括所述相同类别;将所述至少一个目标概率中大于目标阈值的概率或者最大的概率所对应的所述相同类别,确定为目标类别;将所述目标类别的场景确定为所述目标场景。5.根据权利要求4所述的方法,其特征在于,根据相同类别的所述第一概率和所述第二概率确定所述相同类别的目标概率包括:将所述相同类别的所述第一概率和所述第二概率二者之间的平均概率,确定为所述目标概率。6.根据权利要求1所述的方法,其特征在于,通过第一目标模型对所述目标视频特征进行处理,得到第一分类结果包括:通过所述第一目标模型中的第一时序模型对所述目标视频特征进行处理,得到携带有第一时序信息的视频特征向量,其中,所述第一时序模型为通过所述视频特征样本和与所述视频特征样本对应的时序信息对第一子时序模型进行训练,所得到的用于获得携带有时序信息的视频特征向量的模型;通过所述第一目标模型中的第一分类模型对所述视频特征向量进行处理,得到所述第一分类结果,其中,所述第一分类模型为通过与所述视频特征样本对应的视频特征向量样本和与所述视频特征向量样本对应的类别对第一子分类模型进行训练,所得到的用于识别所述视频特征向量的类别的模型。7.根据权利要求6所述的方法,其特征在于,在通过所述第一目标模型中的第一时序模型对所述目标视频特征进行处理,得到携带有第一时序信息的视频特征向量之前,所述方法还包括:通过所述视频特征样本和与所述视频特征样本对应的时序信息对所述第一子时序模型按照正则化规则进行训练,得到所述第一时序模型,其中,所述正则化规...

【专利技术属性】
技术研发人员:易阳涂娟辉李峰高孟平
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1