一种视频识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28421789 阅读:10 留言:0更新日期:2021-05-11 18:29
本申请公开了视频识别方法、装置、电子设备、介质和计算机程序产品,涉及人工智能领域,尤其涉及计算机视觉和深度学习技术。具体实现方案为:将待识别视频分成至少两个视频片段;从视频片段中抽取视频帧并进行特征识别,得到视频片段的初始语意特征块;对各初始语意特征块进行融合,得到融合后的目标语意特征块;基于融合后的目标语意特征块,确定待识别视频的类别。本申请实施例提升了视频识别的精度。

【技术实现步骤摘要】
一种视频识别方法、装置、电子设备和存储介质
本申请涉及人工智能
,尤其涉及计算机视觉和深度学习技术,具体涉及一种视频识别方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
视频识别,即输入一段视频根据视频内容对其进行分类。视频识别是计算机视觉社区中最活跃的研究主题之一,这归因于其在视频监视、视频推荐、检索等方面的巨大应用潜力。
技术实现思路
本申请提供了一种视频识别方法、装置、电子设备、存储介质和计算机程序产品。根据本申请的一方面,提供了一种视频识别方法,包括:将待识别视频分成至少两个视频片段;从视频片段中抽取视频帧并进行特征识别,得到视频片段的初始语意特征块;对各初始语意特征块进行融合,得到融合后的目标语意特征块;基于融合后的目标语意特征块,确定待识别视频的类别。根据本申请的另一方面,提供了一种视频识别装置,包括:分段模块,用于将待识别视频分成至少两个视频片段;特征识别模块,用于从视频片段中抽取视频帧并进行特征识别,得到视频片段的初始语意特征块;融合模块,用于对各初始语意特征块进行融合,得到融合后的目标语意特征块;识别模块,用于基于融合后的目标语意特征块,确定待识别视频的类别。根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请任意实施例的视频识别方法。根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请任意实施例的视频识别方法。根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本申请任意实施例的视频识别方法根据本申请的技术,提升了视频识别的精度。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例的一种视频识别方法的示意图;图2是根据本申请实施例的一种视频识别方法的示意图;图3a是根据本申请实施例的一种视频识别方法的示意图;图3b是根据本申请实施例初始语意特征块的融合过程的效果图;图4是根据本申请实施例的一种视频识别装置的示意图;图5是用来实现本申请实施例的视频识别的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。目前常用的视频识别方法是从待识别的视频中均匀或随机间隔抽取固定数量的视频帧(例如抽取10帧),并将其输入到网络中进行识别。而为了提升视频识别的精度,常用的方法都是单纯从特征提取网络的设计考虑,通过手工设计一定结构的识别网络,以使得网络获得更高的精度。然而,由于中长视频(例如时长超过1分钟的视频)中主要包含多个语意的视频块,如果依旧采用抽取固定数量视频帧进行识别,会忽略不同视频片段的语意的关联和差异,且存在用于表达某一语意的视频帧未被抽取到的情况,导致提取到的特征不充足,进而影响视频识别的精度,而且这种损失的精度是无法通过设计特征提取网络的结构进行弥补的。基于此,专利技术人创造性的提出一种针对中长视频的视频识别方法。图1为本申请实施例的视频识别方法的流程示意图,本实施例可适用于服务器等设备通过对提取到的各视频片段的特征进行融合,进而根据融合后的特征进行视频识别的情况。该方法可由一种视频识别制装置来执行,该装置采用软件和/或硬件的方式实现,并集成在电子设备上,例如集成在服务器上。具体的,参见图1,视频识别方法如下:S101、将待识别视频分成至少两个视频片段。其中,待识别视频是为中长视频,例如为时长超过一分钟的视频。在一种可选的实施方式中,将待识别视频分成至少两个视频片段,包括:对待识别视频进行平均分段,得到长度相同的至少两个视频片段。示例性的,待识别视频的时长为10分钟,预设的每个视频片段时长为20秒,则将待识别视频切分成30个时长为20秒的视频片段。在此需要说明的是,也可以通过其他方式对待识别视频进行分段,在此不做具体限定。而之所以选择平均分段,是因为平均分段可保证视频分段的效率。S102、从视频片段中抽取视频帧并进行特征识别,得到视频片段的初始语意特征块。本申请实施例中,针对任一视频片段,从该视频片段中抽取视频帧进行特征识别,得到该视频片段的初始语意特征块。在此需要说明的是,通过S102得到的初始语意特征块的数量与通过S101得到的视频片段的数量相同,而且由于在每个视频片段中都抽取视频帧进行特征识别,因此可避免出现表达某一语意的视频帧未被抽取的情况。进一步的,由于不同视频片段包括的语意可能相同,因此如果两个或多个相邻的视频片段包括的语意相同,可从其中任意一个视频片段中抽取视频帧进行特征识别。S103、对各初始语意特征块进行融合,得到融合后的目标语意特征块。在一种可选的实施方式中,对各初始语意特征块进行融合,得到融合后的目标语意特征块,包括:基于动态移动策略,将各初始语意特征块的不同通道的特征信息进行融合,得到融合后的目标语意特征块,其中,通过特征融合得到的目标语意特征块的数量和通过S102得到的初始语意特征块的数量相同。在此需要说明的是,通过对各初始语意特征块的不同通道的特征信息进行融合,实现了不同的初始语意特征块中包含与其时序相邻的其它初始语意特征块的部分信息的目的,由此根据融合后的各目标语意特征块可以确定不同视频片段之间的语意关联和差异。S104、基于融合后的目标语意特征块,确定待识别视频的类别。本申请实施例中,根据融合后的目标语意特征块可确定待识别视频的长语意信息,进而根据长语意信息确定待识别视频的类别。本申请实施例中,出于对视频中不同片段包含的语意差异性考虑,对提取到的各视频片段的特征进行融合,进而根据融合后的特征进行识别,可提升视频识别的精度。图2是根据本申请实施例的视频识别方法的流程示意图,本实施例是在上述实施例的基础上进行优化,参见图2,视频识别方法具体如下:S201、将待识别视频分成至少两个视频片段。S202、从视频片段中抽取预设数量的视频帧。本申请实施例中,从每个视频片段均抽取视频帧,例如按照预设时间间隔抽取,以便进行后续的特征识别和特征融合。在此需要说明的是,现有技术中,采用固定输入的方式进行视频识别,也即是识别视频时,从视频中本文档来自技高网...

【技术保护点】
1.一种视频识别方法,包括:/n将待识别视频分成至少两个视频片段;/n从所述视频片段中抽取视频帧并进行特征识别,得到所述视频片段的初始语意特征块;/n对各所述初始语意特征块进行融合,得到融合后的目标语意特征块;/n基于融合后的目标语意特征块,确定所述待识别视频的类别。/n

【技术特征摘要】
1.一种视频识别方法,包括:
将待识别视频分成至少两个视频片段;
从所述视频片段中抽取视频帧并进行特征识别,得到所述视频片段的初始语意特征块;
对各所述初始语意特征块进行融合,得到融合后的目标语意特征块;
基于融合后的目标语意特征块,确定所述待识别视频的类别。


2.根据权利要求1所述的方法,其中,将得到的所述初始语意特征块进行融合,得到融合后的目标语意特征,包括:
基于动态移动策略,将各所述初始语意特征块的不同通道的特征信息进行融合,得到融合后的目标语意特征块。


3.根据权利要求2所述的方法,其中,基于动态移动策略,将各所述初始语意特征块的不同通道的特征信息进行融合,包括:
将当前初始语意特征块的第一通道的特征信息,移动到时序排在所述当前初始语意特征块之前且与所述当前初始语意特征块相邻的初始语意特征块中;
将所述当前初始语意特征块的第二通道的特征信息,移动到时序排在所述当前初始语意特征块之后且与所述当前初始语意特征块相邻的初始语意特征块中。


4.根据权利要求3所述的方法,所述方法还包括:
若所述当前初始语意特征块为时序排在首位的初始语意特征块,则对所述当前初始语意特征块的第二通道进行信息填充;或
若所述当前初始语意特征块为时序排在末尾的初始语意特征块,则对所述当前初始语意特征块的第一通道进行信息填充。


5.根据权利要求1所述的方法,其中,从所述视频片段中抽取视频帧并进行特征识别,得到所述视频片段的初始语意特征块,包括:
从所述视频片段中抽取预设数量的视频帧;
利用预先训练的视频识别网络中的特征提取子网络,对抽取到的视频帧进行特征识别,得到所述视频片段的初始语意特征块。


6.根据权利要求1所述的方法,其中,将待识别视频分成至少两个视频片段,包括:
对所述待识别视频进行平均分段,得到长度相同的至少两个视频片段。


7.一种视频识别装置,包括:
分段模块,用于将待识别视频分成至少两个视频片段;
特征识别模块,用于从所述视频片段中抽取视频帧并进行特征识别,得到所述视频片段的初始语意特征块;
融合模块,用于对各所述初始语意特征块进行融合,得到融合后的目标语意特征块;

【专利技术属性】
技术研发人员:吴文灏赵禹翔
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1